TALANIN, N. Identifikace genů ve squigglech ze sekvenace nanopórem [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2023.

Posudky

Posudek vedoucího

Bartoň, Vojtěch

Student vypracoval bakalářskou práci na téma “identifikace genů ve squigglech ze sekvenace nanopórem”. Text práce provází značné množství gramatických a stylistických chyb, které mírně ztěžují četbu práce. Práce s literaturou by mohla být pečlivější. Teoretická část práce je svým rozsahem i hloubkou na dobré úrovni. Chválím zejména podrobnou kapitolu o nanopórovém sekvenování a technických aspektech zpracování výstupních dat. Čtenáři poskytuje dobrou oporu a dostatečný vhled do tématu bakalářské práce. Praktická část práce je však zatížena většími nedostatky. Kapitolu by bylo vhodnější rozdělit do několika funkčních celků jako je dataset, metodologie, výsledky a diskuze. Sestavený dataset je třeba více popsat, zejména jde-li o více sekvenančních běhů, případně i různé sekvenační chemie. Popis konvolučních sítí by měl být součástí teoretického úvodu práce. Postup vlastní analýzy však nevykazuje větší nedostatky a doufám, že bude rozšířen i na úplný dataset a ne pouze na jeho menší části. Předložené kódy jsou na dobré úrovni, chválím zejména pečlivou dokumentaci a logickou strukturu. Bohužel předložené výsledky s úspěšností pouhých 32% považuji za nedostatečné, stejně jako zpracování pouze 5% datasetu. Diskusi výsledků považuji za nedostatečnou a vzhledem k tomu nelze učinit kvalifikovaný závěr práce. Vzhledem k výše uvedenému hodnotím předloženou bakalářskou práci F/45b a nedoporučuji ji v současném stavu k obhajobě.

Navrhovaná známka
F
Body
45

Posudek oponenta

Jakubíčková, Markéta

Bakalářská práce Nikity Talanina se zabývá identifikací genů v nanopórových signálech. I když teoretická část práce vykazuje výrazné nedostatky a bylo by vhodné ji přepracovat, tak i v této formě je pro BP dostačující. Text obsahuje velké množství překlepů, což znesnadňuje její pochopení, některé části textu jsou nadbytečné (kap. 1.2), text je nevhodně členěn (kap. 1.3), nefungují citace či někde chybí úplně (kap. 1.2.2, 1.3, 1.3.1) a některé odstavce jsou duplikovány (kap. 1.3.1). Oproti tomu praktickou část práce považuji za nevyhovující. Popis vytvořené databáze je velmi stručný a nejasný (např. chybí kolik bylo celkově signálů, kolik bylo signálu pro jednotlivé izoláty). Není jasné, proč byly vybrány právě uvedené geny. Některé použité pojmy jsou zavádějící (př. falešné záznamy v kap. 3.2, znaky v kap. 3.3). Popis výsledných dat pro následné použití u sítě je nedostačující (není uvedeno, jaká byla průměrná délka MLST genů v signálové podobě, kolik genů bylo nalezeno celých nebo jen jejich částí atd.). Samotná část práce zabývající se konvoluční neuronovou sítí trpí také řadou nedostatků. Prvotní navržená síť je velmi základní architektury, i když správné, tak s výraznými omezeními (kapacita sítě, pevná délka signálu, jednonásobné konvoluční vrstvy). I přesto, že druhý pokus o návrh sítě je již sofistikovanější, stále není vhodný pro tuto aplikaci. Zde chybí zcela prvotní analýza data, předzpracování signálů, odůvodnění návrhu sítě nebo provedení ablační studie či optimalizaci hyperparametrů. Student použil pro trénovaní jen 5% signálů vzhledem k náročnosti učení ale bez jakékoli analýzy variability dat. Učební křivka a dosažené výsledky neprokazují řádné naučení sítě, která skutečně detekuje hledané geny. V textu nejsou některé pojmy přesně definované (př. maximální úspěšnost predikce) a není přesně uvedeno, jak byly vytvořeny datasety (byla data vzatá náhodně?), jaký hardware byl použit atd. Diskuze dosažených výsledků je nedostatečná. Práce obsahuje řadu formálních nedostatků (malé obrázky, chybí odkazy na obrázky, chybí číslování rovnic, nevhodný popis obrázků – př. 3.8 a 3.9). Práce se zabývá aktuálním tématem výzkumu a má velký potenciál, který bohužel student pravděpodobně z omezených časových důvodů nenaplnil. Z toho důvodu hodnotím práci F/40 bodů.

Navrhovaná známka
F
Body
40

Otázky

eVSKP id 150830