Polscy naukowcy usprawnili jedną z podstawowych metod bioinformatyki | 12.05.2026
Polscy naukowcy stworzyli FAMSA2 - narzędzie, które pozwala
analizować miliony sekwencji białkowych wielokrotnie szybciej niż istniejące
dotąd metody, a jednocześnie utrzymuje wysoką dokładność wyników. FAMSA2 może
przyspieszyć badania nad ewolucją, funkcją białek i nowymi lekami.
Ten tekst przeczytasz za 6 min. 30 s
Zdjęcie ilustracyjne. Fot. ARC
Współczesna biologia znalazła się w momencie, w którym tempo
przyrostu danych zaczyna wyprzedzać możliwości ich analizowania. Wydajność
sekwencjonowania DNA i RNA w ciągu ostatnich 30 lat zwiększyła się miliard
razy, co przełożyło się na gwałtowny rozrost baz danych genów i białek. Obecnie
liczą one co najmniej setki milionów sekwencji, a - jak przewidują specjaliści
- wkrótce będą zawierać ich miliardy.
Dotychczas używane przez biologów i bioinformatyków
narzędzia nie są w stanie sprostać takiej skali. Stały się zbyt wolne i
kosztowne lub straciły na dokładności. Dlatego zespoły z całego świata pracują
nad nowymi metodami, bazującymi na zupełnie nowych algorytmach.
Jedno z obiecujących rozwiązań przedstawili polscy naukowcy:
prof. Sebastian Deorowicz i dr hab. Adam Gudyś z Politechniki Śląskiej w
Gliwicach oraz dr hab. Andrzej Zieleziński z Uniwersytetu im. Adama Mickiewicza
w Poznaniu. Wraz ze współpracownikiem z Centre for Genomic Regulation w
Barcelonie opracowali FAMSA2 - nową wersję narzędzia do dopasowania wielu
sekwencji białkowych.
- Jedną z podstawowych metod bioinformatycznych jest tzw.
dopasowanie wielu sekwencji (ang. multiple sequence alignment). Stanowi ono
bazę różnych analiz filogenetycznych i ewolucyjnych, a także punkt wyjścia do
przewidywania struktury przestrzennej i funkcji białek - wyjaśnił w rozmowie z
PAP dr hab. Zieleziński.
Jak wytłumaczył, metoda polega na komputerowym zestawieniu
wielu sekwencji białek, zapisanych jako ciągi liter oznaczających kolejne
aminokwasy, tak aby odpowiadające sobie fragmenty znalazły się w tych samych
kolumnach. Dobrze wykonane dopasowanie pozwala wskazać wspólne, niezmienne
fragmenty białek, odpowiadające za ich prawidłowe działanie, co stanowi punkt
wyjścia dla diagnostyki molekularnej, biotechnologii oraz dostarczania danych
dla modeli sztucznej inteligencji wspomagających badania biomedyczne.
- Można to porównać do sytuacji, gdy chcemy ułożyć obok
siebie różne wersje tego samego tekstu, aby zobaczyć, które fragmenty zostały
identyczne, a które napisano trochę inaczej. Najlepsze dopasowanie to takie,
które najwierniej odzwierciedla wszystkie zmiany. I to od lat jest wielki
problem bioinformatyki, szczególnie w przypadku bardzo dużych zbiorów danych.
Dziś, gdy liczba dostępnych sekwencji gwałtownie rośnie, większość
dotychczasowych programów przestała sobie radzić z taką skalą. Stąd wziął się pomysł
na nasze badanie - dodał dr hab. Zieleziński.
Algorytm, na którym opiera się FAMSA2, polscy naukowcy
tworzą i rozwijają od kilkunastu lat. Pierwsza wersja tego programu - FAMSA -
została opublikowana w 2016 r. i szybko zyskała sławę jednej z najszybszych
metod dopasowania wielu sekwencji. Jak podkreślają autorzy, typowe zbiory
danych były jednak wtedy znacznie mniejsze niż obecnie.
Zdjęcie ilustracyjne. Fot. Pixabay
Kluczowym rozwiązaniem zastosowanym w FAMSA2 jest sposób
pracy z bardzo dużymi zbiorami danych. Zamiast porównywać wszystkie sekwencje
ze wszystkimi, narzędzie wybiera spośród sekwencji reprezentantów i na ich
podstawie dzieli cały ich zestaw na mniejsze grupy.
Jak wyjaśnił dr hab. Adam Gudyś, w starszych metodach tacy
reprezentanci byli wybierani losowo. - To przyspieszało pracę, ale powodowało
niestabilność wyników. My ograniczyliśmy ten problem, ponieważ losujemy większy
podzbiór sekwencji, a następnie w jego obrębie wykonujemy pomocnicze
grupowanie, na podstawie którego wybieramy reprezentantów. Dzięki temu wyniki
są lepsze jakościowo - powiedział PAP.
Wyznaczeni reprezentanci służą następnie do uporządkowania
całego zbioru danych. Algorytm przypisuje do nich podobne sekwencje, tworząc
kolejne, mniejsze grupy. Jeśli któraś z nich nadal jest zbyt liczna, procedura
zostaje powtórzona.
Wynikiem opisanej procedury jest tzw. drzewo przewodnie,
czyli struktura określająca kolejność dopasowania sekwencji. Dzięki niej
wiadomo, które sekwencje lub grupy należy zestawiać najpierw.
Dopiero potem rozpoczyna się właściwe dopasowanie. Najpierw
łączone są najbardziej zbliżone sekwencje, a następnie stopniowo scalane
kolejne grupy, aż powstaje końcowe dopasowanie całego zbioru.
Prof. Deorowicz zaznaczył, że o wysokiej wydajności FAMSA2
zdecydowało nie tylko opracowanie lepszego algorytmu, ale także maksymalne
wykorzystanie możliwości współczesnych komputerów.
- Poświęciliśmy dużo czasu na dogłębne zrozumienie tego, jak
w pełni wykorzystać możliwości każdego rdzenia procesora oraz pamięci
operacyjnej do jak najszybszego dopasowywania sekwencji. Dzięki temu uzyskujemy
równoległość obliczeń na trzech poziomach. Nie tylko traktujemy procesor jako
układ wielu rdzeni, ale też wykorzystujemy operacje wektorowe w obrębie
pojedynczego rdzenia, a jeszcze głębiej prowadzimy obliczenia na poziomie bitów
- wyjaśnił prof. Deorowicz.
Jak dodał, takie podejście przyspiesza obliczenia tysiące
razy w porównaniu z prostszym, bardziej tradycyjnym sposobem programowania.
Dzięki temu analizy obejmujące setki tysięcy czy wręcz miliony sekwencji można
wykonać w ciągu kilku godzin na wydajnych stacjach roboczych, a nawet na
dobrych komputerach osobistych, bez konieczności użycia superkomputerów. To
ważne, bo nie każdy zespół badawczy ma dostęp do dużej infrastruktury
obliczeniowej.
Przy bardzo dużych analizach problemem był także sam zapis
wyniku na dysk. Gotowe dopasowania liczące miliony sekwencji zajmują bowiem
setki gigabajtów. Dlatego FAMSA2 podczas zapisywania tak dużych plików
równolegle kompresuje dane.
- Historia programów do dopasowania sekwencji jest bardzo
długa i zwykle był to kompromis: albo szybkość, albo dokładność. Jeśli
narzędzie było szybkie, robiło zbyt dużo uproszczeń. Jeśli było dokładne,
potrafiło działać wiele dni. Nam udało się przyspieszyć analizę bez utraty
jakości, co pokazują testy w zastosowaniach strukturalnych, filogenetycznych i
funkcjonalnych - podsumował dr hab. Zieleziński.
Autorzy opublikowali swoje narzędzie w otwartym dostępie,
dzięki czemu mogą z niego korzystać wszystkie chętne zespoły. Do tej pory
pobrano je ponad 130 tys. razy. Artykuł opisujący ich badania opublikowano w czasopiśmie
„Nature Biotechnology”.