Analiza metagenomiczna w Bioidea - pakiet BioMeta16S

Analiza 16S jest szeroko stosowana w identyfikacji mikroorganizmów – bakterii, archeonów - oraz poszukiwaniu powiązań filogenetycznych między nimi. Polega na amplifikacji i sekwencjonowaniu genu 16S, charakteryzującego się wysokim polimorfizmem pomiędzy różnymi gatunkami tych mikroorganizmów. Gen 16S podzielony jest na kilka rejonów: V1 do V9, których amplifikacja zachodzi dzięki uniwersalnym starterom. Amplifikacja dwóch rejonów 16S (np. V3V4) jest wystarczająca do identyfikacji większości bakterii, jednak im dłuższy fragment jest amplifikowany tym łatwiej jest rozróżnić mikroorganizmy o wysokim stopniu podobieństwa. Ma to duże znaczenie zwłaszcza na etapie identyfikacji bakterii do poziomu taksonomicznego gatunku.

Do identyfikacji mikrobiomu w próbkach diagnostycznych i środowiskowych wykorzystujemy przygotowany przez nas pakiet oprogramowania analizujący odczyty NGS w sposób szybki i kompleksowy. Pakiet BioMeta16S został stworzony na potrzeby identyfikacji bakterii na wszystkich poziomach taksonomii. W odróżnieniu od zdecydowanej większości dostępnych rozwiązań bioinformatycznych, pakiet BioMeta16S identyfikuje bakterie z dokładnością blisko 90% do najniższego poziomu taksonomii – gatunku, oraz z dokładnością 100% do poziomu taksonomicznego rodzaju (dotyczy próbek medycznych - w próbkach środowiskowych większość organizmów nie jest tak dokładnie poznana).

Udaje się to osiągnąć między innymi dzięki opracowaniu własnej referencyjnej bazy danych sekwencji. Referencja BioMeta16SRef powstała na podstawie danych pochodzących z wielu źródeł – w tym najczęściej wykorzystywanych w metagenomice bazach Greengenes oraz NCBI - i jest okresowo, automatycznie aktualizowana o nowo poznane lub zsekwencjonowane organizmy. Aktualna w chwili pisania artykułu wersja 1.1.2 referencji rozróżnia 19267 gatunków bakterii posiadających gen 16S.

Weryfikacja oprogramowania - case study

Skuteczność pakietu BioMeta16S była rozwijana dzięki dostępnym publicznie wynikom sekwencjonowania mocków, czyli preparatów zawierających genomowe DNA znanych bakterii. Ponieważ w każdym z takich preparatów wiadomo jakie organizmy znajdują się w próbce, łatwo zatem można ocenić skuteczność analizy polegającej na identyfikacji organizmów.

Cykl analizy przedstawiony zostanie na podstawie dostępnych publicznie wyników sekwencjonowania NGS preparatu HM-782D. Pliki FASTQ z wynikami dostępne są w bazie NCBI pod numerem SRR2952731. Według dostępnych informacji preparat HM-782D zawiera genomowe DNA 20 bakterii: Acinetobacter baumannii, Actinomyces odontolyticus, Bacillus cereus, Bacteroides vulgatus, Clostridium beijerinckii, Deinococcus radiodurans, Enterococcus faecalis, Shigella sonnei*, Helicobacter pylori, Lactobacillus gasseri, Listeria welshimeri, Neisseria meningitidis, Cutibacterium acnes, Pseudomonas aeruginosa, Rhodobacter sphaeroides, Staphylococcus aureus, Staphylococcus epidermidis, Streptococcus agalactiae, Streptococcus mutans, Streptococcus pneumoniae. W celu potwierdzenia przypisanej taksonomii, sekwencje referencyjne (gen 16S) wymienionych bakterii zostały manualnie przyrównane do bazy NCBI za pomocą programu BLAST. W wyniku tej analizy, zaobserwowano iż dwie grupy sekwencji referencyjnych HM-782D powinny mieć przypisaną inną taksonomię. Zmianie uległy taksonomie: Escherichii coli na Shigellę sonnei oraz Listerię monocytogenes na L. welshimeri. Powodem zmian jest prawdopodobnie ciągła ewolucja bazy sekwencji genu 16S bakterii.

Wyniki eksperymentu

W wyniku przeprowadzonej analizy z wykorzystaniem pakietu BioMeta16S uzyskano 24 klastry sekwencji OTU (ang. operational taxonomic unit). Dwie sekwencje OTU zostały odrzucone z dalszej analizy w wyniku bardzo niskiej ilości odczytów (<0,01%). Do pozostałych 22 sekwencji OTU przypisano taksonomię z wykorzystaniem referencji BioMeta16SRef w wersji 1.1.2. Dla 18 sekwencji OTU uzyskano taksonomię gatunku zgodną z referencją, dla 3 sekwencji OTU przypisanie gatunku było niejednoznaczne oraz uzyskano jedną dodatkową sekwencję OTU prezentującą dodatkowy gatunek bakterii - Staphylococcus mitis, której sekwencja jest bardzo podobna do Staphylococcus aureus. Dwa klastry OTU zostały przypisane do tej samej taksonomii - Lactobacillus gasseri oraz Staphylococcus aureus. Pozostałe OTU prezentowały różne taksonomie.

Wszystkie analizowane odczyty przypisane zostały do poziomu taksonomii królestwa bakterii co w konsekwencji pozwoliło na podzielenie sekwencji na wszystkie poziomy taksonomii, aż do poziomu gatunku. W wyniku analizy odczyty przypisały się do 100% taksonomii referencyjnej HM-782D na poziomie królestwa, gromady, klasy, rzędu, rodziny i rodzaju. Na poziomie taksonomicznego gatunku odczyty przypisane zostały z dokładnością 85%. Dla trzech sekwencji OTU przypisanie poziomu taksonomicznego gatunku było niejednoznaczne. Analizowane sekwencje OTU zostały idealnie przyrównane do kilku sekwencji referencyjnych gatunków, stąd przypisanie jednego konkretnego rekordu okazało się niemożliwe. Niejednoznaczne wyniki analizy zostały oznaczone jako na przykład: "Shigella;Other". Ten sposób analizy chroni przed pojawieniem się niepoprawnych wyników adnotacji do poziomu gatunku, zachowując jednocześnie 100% poprawną adnotację do poziomu rodzaju. Analizowane dane nie pozwoliły ustalić gatunku dla rodzajów: Shigella, Clostridium, oraz Neisseria. Przyczyną zaistniałego wyniku może być fakt, że sekwencja jest za krótka, aby z powodzeniem oddzielić od siebie blisko spokrewnione gatunki bakterii. Dodatkowo błędy na etapie amplifikacji czy sekwencjonowania mogą zaburzyć ilość oraz jakość sekwencji potrzebnych do identyfikacji poszczególnych gatunków.

W celu określenia częstości występowania każdego z wykrytych gatunków, policzono procent odczytów przypadający na dany gatunek bakterii. Najwięcej odczytów przypisało się do bakterii Bacteroides vulgatus - 13,57% oraz Helicobacter pylori - 13,53%. Najmniej odczytów zaobserwowano dla dodatkowo zaobserwowanego gatunku Streptococcus mitis - 0,12%.

Podsumowanie, wnioski

Analiza 16S z wykorzystaniem naszego oprogramowania BioMeta16S oraz referencji BioMeta16SRef z powodzeniem pozwoliła na identyfikację wszystkich taksonomicznych rodzajów bakterii referencji HM-782D ze 100% dokładnością, a taksonomicznych gatunków z niemal 90% dokładnością. Z powyższego opisu można jednak wyciągnąć wnioski, że skuteczna analiza 16S możliwa jest dopiero pod pewnymi warunkami:

  • Konieczne jest uzyskanie wysokiej jakości odczytów. Jeśli jakość będzie niska występowanie przekłamań nukleotydowych w odczytach może sztucznie zawyżyć ilość zidentyfikowanych organizmów oraz powodować błędne przypisanie taksonomiczne;
  • Konieczne jest takie ustawienie przebiegu sekwencjonowania, aby maksymalizować uzyskane ilości odczytów na próbkę. Ma to szczególne znaczenie w przypadku poszukiwania gatunków o niskiej częstości występowania;
  • Preferowane jest uzyskanie jak najdłuższego produktu genu 16S. Jest to szczególnie ważne, gdy w analizowanej próbce znajdują się blisko ze sobą spokrewnione gatunki. W opisywanej powyżej analizie preparatu HM-782D natrafiliśmy na odczyty, które z równym prawdopodobieństwem mogą należeć do kilku różnych gatunków. Dodatkowe fragmenty genu 16S, które pozwoliłyby na rozróżnienie tych gatunków nie uległy niestety zsekwencjonowaniu.

Spełnienie powyższych warunków nie zawsze się udaje, stąd nie zawsze możliwe będzie przypisanie odczytów do poziomu gatunku - w takim wypadku odczyty zostaną przypisane do wyższego poziomu taksonomii.