TALANIN, N. Identifikace genů ve squigglech ze sekvenace nanopórem [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2023.
Student vypracoval bakalářskou práci na téma “identifikace genů ve squigglech ze sekvenace nanopórem”. Text práce provází značné množství gramatických a stylistických chyb, které mírně ztěžují četbu práce. Práce s literaturou by mohla být pečlivější. Teoretická část práce je svým rozsahem i hloubkou na dobré úrovni. Chválím zejména podrobnou kapitolu o nanopórovém sekvenování a technických aspektech zpracování výstupních dat a jejich formátu. Čtenáři poskytuje dobrou oporu a dostatečný vhled do tématu bakalářské práce. Aktuálnost tématu podtrhuje i nedávná změna formátu výstupních souborů a pro nejnovější sekvenace by bylo třeba upravit kód i popis struktury dat upravit. K této změně došlo však v době finalizace bakalářské práce a tak nemohla být reflektována. Praktická část pak popisuje sestavený dataset a výběr vhodných genů pro identifikaci. Náročným úkolem byla již příprava vhodného datasetu. K tomuto úkolu přispěl student vlastní implementací vyhledávacího algoritmu blast, pro identifikaci genových sekvencí v basecallovaných datech. Veškeré nalezené sekvence pak vhodně strukturoval a vytvořil si tak vhodný základ pro efektivní přístup k datům. V rámci klasifikace signálů přistoupil student k optimalizaci výpočetní náročnosti celého procesu pomocí normalizace a filtrace signálů. Zdůvodnění zvolených parametrů předzpracování však není z textu práce zcela jasné. Samotné učení sítě by si zasloužilo zevrubnější popis. Úspěšnost 65% se nezdá jako vysoká, ovšem je třeba mít na paměti, že klasifikujeme celkem do 8 tříd. Ve výsledcích mi chybí matice zařazení vzorků do jednotlivých tříd, tak aby se dala určit senzitivita, specificita, FNR a FPR poměry. Zevrubnější popis výsledků tedy schází. Naopak kvalita předložené codebase a její popis mě mile překvapil. Přes veškeré výtky výše musím ocenit samostatnost studenta při řešení bakalářské práce a náročnost tématu. Práci považuji za dobrou a doporučuji ji k obhajobě. Navrhuji hodnocení D/65b.
Bakalářská práce Nikity Talanina se zabývá identifikací genů v nanopórových signálech. Jedná se o dopracovanou verzi dříve neúspěšně obhájené práce. Ačkoliv teoretická část práce obsahuje řadu nepřesností a formálně je na podprůměrné úrovni, i přesto poskytuje čtenáři dostačující vhled do problematiky. Text obsahuje velké množství překlepů či neobratných formulací, místy nejsou používány správné výrazy (kap 1.2.1), některá tvrzení si protiřečí (kap. 1.2.2, 1.2.3). S některými tvrzeními, které student vteoretické části práce uvádí, nesouhlasím (př. délka čtení u Illumina sekvenování se pohybuje kolem sta bází, basecalling se provádí vcloudu Amazon pomocí služby Metrichor, zkonstruována 2D sekvence, atd.). Praktická část je oproti předchozí verzi práce dopracována. Nicméně popis vytvořené databáze je stále nejasný a neúplný (např. byl proveden basecalling nebo byly již sekvence uloženy ve fast5, kolik bylo celkem signálů v1994 fast5 souborech, proč se vygenerovalo 13951 xml souborů, …). Hlavní nedostatek zde shledávám u popisu genů, které se vsignálech hledaly. Není jasné, zda se hledaly celé geny nebo jen úseky, které se používají pro MLST typizaci a stále není uvedeno, kolik genů bylo nalezeno celých nebo jen jejich částí. Samotná část práce zabývající se konvoluční neuronovou sítí vykazuje výrazné zlepšení oproti předchozí verzi, student dosáhl úspěšnosti 65 %, což považuji vtomto případě za dobré. Nicméně i zde se vyskytují určité nedostatky (kap. Předzpracování vzorků – není uvedena vzorkovací frekvence, proč byla zvolena PP spásmem 1 – 40 Hz, proč byly zvolena normalizace do rozsahu 0-1). Dále ztextu jasně nevyplývá, zda student používal na vstup sítě vždy jen signály sgenem či nikoliv. Diskuze výsledků je nedostatečná, není vyhodnocena úspěšnost klasifikace pro jednotlivé geny. Dále mi není jasné, co student myslel prvním faktorem (minimální délka záznamu), který ovlivnil výsledky, u algoritmu BLAST mi chybí, zda byly výsledky nějak filtrované (př. parametr identity). Práce obsahuje řadu formálních nedostatků, které byly uvedeny již vminulém posudku a student je neopravil (malé obrázky, chybí odkazy na obrázky, nevhodný popis obrázků, název bakterie a genů není psán kurzívou, zkratka není uvedena u prvního výskytu). I přes uvedené výtky považuji zadání práce za splněné a práci hodnotím stupněm E/50 bodů.
eVSKP id 153830