VOROCHTA, J. Využití technik strojového učení pro detekci a klasifikaci genů v surových nanopórových signálech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.
Předložená bakalářská práce studenta Jevhenije Vorochty se zabývá vysoce experimentálním tématem detekce genů v bakteriálních genomech ve formě surových signálů z nanopórového sekvenování – bez dekódování samotné DNA sekvence. Tento přístup by mohl umožnit detekci patogenních bakterií již v průběhu sekvenace. Teoretická část práce je rozsáhlá, podložená 68 kvalitními referencemi převážně ze zahraničních vědeckých publikací, a poskytuje potřebné informace o sekvenačních technologiích i principech neuronových sítí. V této části však poněkud chybí přehled využití neuronových sítí pro zpracování nanopórových signálů. Přestože žádná ze známých prací neřeší přesně totožný problém, rešerše dostupných přístupů by měla být součástí práce. V praktické části student sestavil testovací dataset obsahující vzory vybraných genů rezistence na antibiotika. Navrhl, implementoval a otestoval transformerovou neuronovou síť pro jejich detekci na reálných klinických datech a provedl také odhad časové náročnosti metody s ohledem na možnost analýzy v reálném čase během sekvenace. Přestože téma vyžaduje znalosti bioinformatiky, zpracování číslicových signálů i pokročilých neuronových sítí – přesahující rámec běžného bakalářského studia – student se jej zhostil velmi dobře. Výsledky své práce navíc úspěšně prezentoval na studentské soutěži EEICT 2025, kde se umístil na druhém místě. Celkově, i přes drobné nedostatky, hodnotím práci vzhledem k vysoké náročnosti zadání známkou A (93 bodů).
Bakalářská práce Jevhenije Vorochty se zabývá aplikací neuronových sítí – konkrétně transformerových a hybridních CNN-transformerových architektur – pro detekci vybraných genů v surových nanopórových signálech. Téma je aktuální a technicky náročné. Práce působí ambiciózně jak rozsahem, tak mírou vlastní implementace a experimentů. Teoretická část práce je velmi rozsáhlá, kapitoly o nanopórovém sekvenování a datových formátech jsou až příliš detailní. Naproti tomu naprosto chybí část, která by shrnovala stávající použití metod hlubokého učení ve zpracování a analýze genetických dat. Přitom již existují publikace, které využívají konvoluční nebo hybridní modely pro klasifikaci genů či signálů z nanopórového sekvenování bez basecallingu (např. SquiggleNet, DeepSelectNet, NanoGeneNet aj.). Tento nedostatek informací v literární rešerši a také to, že student přesně neformuluje, v čem spočívá novost a originalita zvoleného přístupu, komplikuje posouzení odborného přínosu práce. V praktické části pozitivně hodnotím vlastní návrh hybridní neuronové sítě. Přesto některé metodické kroky zůstávají nejasné: např. nahrazení jedné třídy genu aac(3)-IId za gen aph(6)-Id bez podrobné diskuze, nebo zařazení segmentů s méně než 50 % délky genu do kategorie 0 („žádný gen“). Autor toto nastavení zmiňuje v diskuzi, ale chybí konkrétní číselná analýza dopadu na výslednou přesnost (např. kterých genů se toto neúplné zastoupení v signálech týkalo nejvíce?). Analýza vlivu délky přítomného detekovaného genu na klasifikační úspěšnost je bezesporu přínosná a má praktický význam pro diagnostické nasazení. Naopak nevyužitá zůstala možnost interpretace naučených příznaků na výstupu CNN ("FeatureExtractor"), která by mohla objasnit například chybné detekce genů. Srovnání přesnosti původní transformerové architektury a hybridního modelu bohužel není plně vypovídající, neboť kromě architektury došlo i ke změně vstupních dat, tříd a strategií značení segmentů. Diskuze výsledků je zpracována velmi dobře – student uvádí benefity i limitace použitých metod, nabízí konkrétní cesty zlepšení a přemýšlí nad praktickým dopadem svého řešení. V této části je vidět hlubší pochopení problematiky. Text je členěn logicky, stylisticky působí kultivovaně. Obrázky a schémata jsou kvalitní a přehledné. Navzdory výše uvedeným komentářům je práce rozsáhlá a po technické stránce dobře realizovaná. Všechny body zadání jsou splněny. Navrhuji známku: B (87 bodů).
eVSKP id 167507