PLOCKOVÁ, V. Vlastnosti proudových signálů při sekvenaci nanopórem [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2022.

Posudky

Posudek vedoucího

Sedlář, Karel

Studentka Veronika Plocková se ve své práci zabývá popisem proudových signálů, tzv. squiggles vznikajících při sekvenaci DNA pomocí nanopórů, v časové oblasti. Vlastnosti těchto signálů se díky neustálým vylepšením sekvenační platformy mění a jsou velmi málo popsané, jedná se tedy o zajímavé a aktuální bioinformatické téma. V teoretické části práce studentka pojednává o sekvenaci, přičemž se zaměřuje především na princip sekvenace nanopórem a také popisem parametrů, kterými se získané signály dají hodnotit. Rešerše je čtivá, přehledná a věcná díky dobré práci s literaturou. V rámci praktické části práce pak studentka vytvořila vlastní vhodný testovací dataset obsahující sekvenační data z různých bakterií při využití různých sekvenačních kitů a flowcells. Na tomto datasetu pak hodnotila možnosti rozlišení různých signálů pomocí několika statistických parametrů, případně jejich kombinací, jež vedou k dosažení lepších výsledků. Tato část práce už není tak přehledná, za což mohou i formální nedostatky, třeba to, že některé obrázky nejsou v textu odkazované. Chybí mi hlubší analýza kombinace jednotlivých parametrů, například diskuse, zda některé z nich nejsou lineárně závislé. Na redukci dimenzionality byla totiž použita pouze stochastická metoda t-SNE. Nicméně zadání práce považuji za bezezbytku splněné. K práci přistupovala studentka svědomitě a dílčí výsledky pravidelně konzultovala a také se s nimi zúčastnila studentské konference EEICT. Celkově práce působí jako ucelené dílo, obsahuje pouze menší množství překlepů a jiných formálních nedostatků, třeba nejednotného formátování referencí, kdy občas jsou vypsaná celá jména, jindy pouze první písmena křestních jmen. Práci tedy hodnotím jako dobrou.

Navrhovaná známka
C
Body
78

Posudek oponenta

Nykrýnová, Markéta

Studentka Veronika Plocková se ve své bakalářské práci zabývá vlastnostmi proudových signálů při sekvenaci nanopórem. Teoretická část popisuje princip sekvenování pomocí nanopórů včetně vznikajících signálů a jejich dalšího zpracování, následně jsou popsány dostupné sekvenátory a sekvenační chemie. Literární rešerše poskytuje dostatečný pohled na současné možnosti sekvenace pomocí nanopóru, bohužel se zde vyskytuje velké množství překlepů, často chybějí mezery u odkazů na obrázky a někdy chybí tečky na konci vět. Zároveň zde můžeme najít i nepřesnosti v uvedených tvrzeních, např. v kapitole 1.9 je uvedena jako nejnovější verze pórů R9, v kapitole 1.7.1 je uvedena verze R10. Studentka také tvrdí, že nevýhodou softwaru Guppy je nemožnost basecallingu v reálném čase, což ale software umožňuje. Následně může být pro čtenáře lehce matoucí, že pojmem MinION označuje nejdříve sekvenátor a pak i samotné flowcelly. U popisu FASTQ formátu chybí uvedeno, co je obsaženo na 4. řádku. V kapitole 2 u uvedených rovnic (2.1, 2.2, 2.3, …) není vysvětleno, co znamenají jednotlivé symboly a navíc není na rovnice v textu odkazováno a jejich umístěné neodpovídá logickému členění textu. Studentka v další kapitole uvádí, že si pro svoji práci vybrala z kompletních dat vždy jeden FAST5 soubor, ale není uvedeno, jak ho vybrala. U odstavce o restauraci signálu postrádám citaci. Dále je zde uvedeno, že firma ONT uvádí, že signály není potřeba filtrovat, což je doloženo citací 34, která ale odkazuje na článek o testech shod a jejich implementaci v Matlabu. Následně je v práci uvedeno, že byl použitý ligační kit 009, ale takové číslo žádný kit nemá. U obr 2.3 pro střední hodnotu studentka píše, že je zde velké množství odlehlých hodnot v rozmezí 250-480, ale osa v grafu zobrazuje pouze hodnoty 50-140. Na většinu obrázků není v praktické části práce odkazováno. Dále mi není jasné, proč je provedeno párové testování, které datasety klostridie se liší. Navíc zde nejsou ze zmíněného Tukeyho testu uvedeny žádné hodnoty. V kapitole 2.4 studentka tvrdí, že basecalling je úspěšný pouze v 50 % případů, s tímto tvrzení absolutně nesouhlasím a navíc není doloženo žádnou citací. Dále tvrdí, že pokud by data nebyla basecallovaná, došlo by ke ztrátě některých čtení, což nedává smysl. U obr. 2.13 není jasné čeho střední hodnota je zde uvedena. Na tabulky 2.5, 2.6 a 2.7 není v práci odkazováno. U shlukové analýzy v kapitole 3 není uvedeno, proč byl počet shluků nastavený na 8 a 2. U kapitole 3.2 chybí citace. Celá kapitola 3.2.1 je velice zmatečná. Studentka uvádí, že použila basecallované a zarovnané sekvence genu 16s rRNA. Není zde uvedeno, jak tyto sekvence v basecallovaných datech hledala. Byly genomy nejprve složeny a ve výsledných sekvencích nalezeny geny? Nebo bylo provedeno hledání ve FASTQ souborech a pak byla tvořena konsensuální sekvence? Dále je uvedeno, že nemá smysl shlukovat nezarovnané sekvence, ale o několik vět dříve je napsáno, že sekvence byly zarovnané. Dále je navíc uvedeno, že čtení byla vybrána náhodně a mohou obsahovat různé sekvence. Jak tedy bylo zajištěno, že všechny budou obsahovat gen pro 16s rRNA? U Obr. 3.1 a 3.2 není popsána osa x, navíc u obr. 3.2 vpravo se najednou vyskytuje jen 5 větví. Sekvence genu 16s rRNA by sice měla být pro testované Klebsielly identická, ale uvítala bych doložení, že tomu tak je. Organismus Klebsiella je v celé práci špatně psaný jako Klebseilla. V práci je celkem citováno 43 zdrojů, zdroj 1 a 3 je duplicitní, u některých zdrojů chybí identifikátory. Seznam zkratek není řazen abecedně. Téma práce je sice zajímavé a aktuální, ale celkově práce působí zmatečně. Práci hodnotím stupněm D/60 bodů.

Navrhovaná známka
D
Body
60

Otázky

eVSKP id 142079