Polska - Głos - gloslive.cz

Polscy naukowcy usprawnili jedną z podstawowych metod bioinformatyki | 12.05.2026

Polscy naukowcy stworzyli FAMSA2 - narzędzie, które pozwala analizować miliony sekwencji białkowych wielokrotnie szybciej niż istniejące dotąd metody, a jednocześnie utrzymuje wysoką dokładność wyników. FAMSA2 może przyspieszyć badania nad ewolucją, funkcją białek i nowymi lekami.

Ten tekst przeczytasz za 6 min. 30 s

Zdjęcie ilustracyjne. Fot. ARC

Współczesna biologia znalazła się w momencie, w którym tempo przyrostu danych zaczyna wyprzedzać możliwości ich analizowania. Wydajność sekwencjonowania DNA i RNA w ciągu ostatnich 30 lat zwiększyła się miliard razy, co przełożyło się na gwałtowny rozrost baz danych genów i białek. Obecnie liczą one co najmniej setki milionów sekwencji, a - jak przewidują specjaliści - wkrótce będą zawierać ich miliardy.

Dotychczas używane przez biologów i bioinformatyków narzędzia nie są w stanie sprostać takiej skali. Stały się zbyt wolne i kosztowne lub straciły na dokładności. Dlatego zespoły z całego świata pracują nad nowymi metodami, bazującymi na zupełnie nowych algorytmach.

Jedno z obiecujących rozwiązań przedstawili polscy naukowcy: prof. Sebastian Deorowicz i dr hab. Adam Gudyś z Politechniki Śląskiej w Gliwicach oraz dr hab. Andrzej Zieleziński z Uniwersytetu im. Adama Mickiewicza w Poznaniu. Wraz ze współpracownikiem z Centre for Genomic Regulation w Barcelonie opracowali FAMSA2 - nową wersję narzędzia do dopasowania wielu sekwencji białkowych.

- Jedną z podstawowych metod bioinformatycznych jest tzw. dopasowanie wielu sekwencji (ang. multiple sequence alignment). Stanowi ono bazę różnych analiz filogenetycznych i ewolucyjnych, a także punkt wyjścia do przewidywania struktury przestrzennej i funkcji białek - wyjaśnił w rozmowie z PAP dr hab. Zieleziński.

Jak wytłumaczył, metoda polega na komputerowym zestawieniu wielu sekwencji białek, zapisanych jako ciągi liter oznaczających kolejne aminokwasy, tak aby odpowiadające sobie fragmenty znalazły się w tych samych kolumnach. Dobrze wykonane dopasowanie pozwala wskazać wspólne, niezmienne fragmenty białek, odpowiadające za ich prawidłowe działanie, co stanowi punkt wyjścia dla diagnostyki molekularnej, biotechnologii oraz dostarczania danych dla modeli sztucznej inteligencji wspomagających badania biomedyczne.

- Można to porównać do sytuacji, gdy chcemy ułożyć obok siebie różne wersje tego samego tekstu, aby zobaczyć, które fragmenty zostały identyczne, a które napisano trochę inaczej. Najlepsze dopasowanie to takie, które najwierniej odzwierciedla wszystkie zmiany. I to od lat jest wielki problem bioinformatyki, szczególnie w przypadku bardzo dużych zbiorów danych. Dziś, gdy liczba dostępnych sekwencji gwałtownie rośnie, większość dotychczasowych programów przestała sobie radzić z taką skalą. Stąd wziął się pomysł na nasze badanie - dodał dr hab. Zieleziński.

Algorytm, na którym opiera się FAMSA2, polscy naukowcy tworzą i rozwijają od kilkunastu lat. Pierwsza wersja tego programu - FAMSA - została opublikowana w 2016 r. i szybko zyskała sławę jednej z najszybszych metod dopasowania wielu sekwencji. Jak podkreślają autorzy, typowe zbiory danych były jednak wtedy znacznie mniejsze niż obecnie.

Zdjęcie ilustracyjne. Fot. Pixabay

Kluczowym rozwiązaniem zastosowanym w FAMSA2 jest sposób pracy z bardzo dużymi zbiorami danych. Zamiast porównywać wszystkie sekwencje ze wszystkimi, narzędzie wybiera spośród sekwencji reprezentantów i na ich podstawie dzieli cały ich zestaw na mniejsze grupy.

Jak wyjaśnił dr hab. Adam Gudyś, w starszych metodach tacy reprezentanci byli wybierani losowo. - To przyspieszało pracę, ale powodowało niestabilność wyników. My ograniczyliśmy ten problem, ponieważ losujemy większy podzbiór sekwencji, a następnie w jego obrębie wykonujemy pomocnicze grupowanie, na podstawie którego wybieramy reprezentantów. Dzięki temu wyniki są lepsze jakościowo - powiedział PAP.

Wyznaczeni reprezentanci służą następnie do uporządkowania całego zbioru danych. Algorytm przypisuje do nich podobne sekwencje, tworząc kolejne, mniejsze grupy. Jeśli któraś z nich nadal jest zbyt liczna, procedura zostaje powtórzona.

Wynikiem opisanej procedury jest tzw. drzewo przewodnie, czyli struktura określająca kolejność dopasowania sekwencji. Dzięki niej wiadomo, które sekwencje lub grupy należy zestawiać najpierw.

Dopiero potem rozpoczyna się właściwe dopasowanie. Najpierw łączone są najbardziej zbliżone sekwencje, a następnie stopniowo scalane kolejne grupy, aż powstaje końcowe dopasowanie całego zbioru.

Prof. Deorowicz zaznaczył, że o wysokiej wydajności FAMSA2 zdecydowało nie tylko opracowanie lepszego algorytmu, ale także maksymalne wykorzystanie możliwości współczesnych komputerów.

- Poświęciliśmy dużo czasu na dogłębne zrozumienie tego, jak w pełni wykorzystać możliwości każdego rdzenia procesora oraz pamięci operacyjnej do jak najszybszego dopasowywania sekwencji. Dzięki temu uzyskujemy równoległość obliczeń na trzech poziomach. Nie tylko traktujemy procesor jako układ wielu rdzeni, ale też wykorzystujemy operacje wektorowe w obrębie pojedynczego rdzenia, a jeszcze głębiej prowadzimy obliczenia na poziomie bitów - wyjaśnił prof. Deorowicz.

Jak dodał, takie podejście przyspiesza obliczenia tysiące razy w porównaniu z prostszym, bardziej tradycyjnym sposobem programowania. Dzięki temu analizy obejmujące setki tysięcy czy wręcz miliony sekwencji można wykonać w ciągu kilku godzin na wydajnych stacjach roboczych, a nawet na dobrych komputerach osobistych, bez konieczności użycia superkomputerów. To ważne, bo nie każdy zespół badawczy ma dostęp do dużej infrastruktury obliczeniowej.

Przy bardzo dużych analizach problemem był także sam zapis wyniku na dysk. Gotowe dopasowania liczące miliony sekwencji zajmują bowiem setki gigabajtów. Dlatego FAMSA2 podczas zapisywania tak dużych plików równolegle kompresuje dane.

- Historia programów do dopasowania sekwencji jest bardzo długa i zwykle był to kompromis: albo szybkość, albo dokładność. Jeśli narzędzie było szybkie, robiło zbyt dużo uproszczeń. Jeśli było dokładne, potrafiło działać wiele dni. Nam udało się przyspieszyć analizę bez utraty jakości, co pokazują testy w zastosowaniach strukturalnych, filogenetycznych i funkcjonalnych - podsumował dr hab. Zieleziński.

Autorzy opublikowali swoje narzędzie w otwartym dostępie, dzięki czemu mogą z niego korzystać wszystkie chętne zespoły. Do tej pory pobrano je ponad 130 tys. razy. Artykuł opisujący ich badania opublikowano w czasopiśmie „Nature Biotechnology”.

Powrót do przeglądu