KOMJATY, D. Genomická predikce založená na hlubokém učení pomocí sítí LSTM [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2024.
Student Daniel Komjaty ve své bakalářské práci zpracovává téma genomické predikce u rostlin s využitím predikčních metod založených na strojovém učení. Práce využívá genomická data popsaná pomocí jednonukleotidových polymorfismů. Cílem práce bylo zpracovat potřebnou teorii zaměřenou na genomickou predikci a její aplikace u rostlin, prostudovat predikční metody a modely strojového učení používané pro genomické predikce rostlin, otestovat minimálně dva konvenční přístupy a implementovat vlastní LSTM neuronovou síť. První část práce je zaměřena na teoretickou část a podrobně popisuje analyzovaná data z Arabidopsis thaliany. V teoretické části student nastudoval současnou problematiku genomické predikce v rostlinné říši a citoval 36 kvalitních literárních zdrojů. Cílem praktické části práce bylo implementovat vybrané konvenční modely strojového učení a sítě LSTM pro genomickou predikci rostlin v programovacím jazyce Python. Implementace zahrnovala také předzpracování dat a transformaci dat na vstupy vhodné pro algoritmy predikčního modelování. Student automatizoval predikci pro naměřených 37 metabolitů, které jsou uvedeny pro dvě teplotní podmínky, 6 a 16 °C. Pro realizaci implementace byly použity funkce ze známých pythonových knihoven, které byly správně implementovány do vytvořených funkcí v rámci této bakalářské práce. Hodnocení úspěšnosti predikce modelů bylo provedeno pomocí Pearsonova korelačního koeficientu (KK) a MSE. Na dostupných datech student otestoval a natrénoval konvenční modely RR (Ridge Regression), LASSO (Least Absolute Shrinkage and Selection Operator) a RF (Random Forest). Výsledky, kterých student dosáhl, správně poukázaly na nedostatky lineárních metod RR a LASSO. Nakonec byly úspěšně implementovány sítě LSTM. Po formální stránce práce obsahuje občas nevhodné pojmy, jako například superlativ „nejlepší výsledky“ (stránka 43), které rozhodně nelze považovat za nejlepší výsledky; autor chtěl spíše uvést „modely dosahují lepších výsledků“. Bohužel podobných vyjádření v práci je značné množství. Z toho důvodu se práce čte velmi obtížně. Student bohužel nebyl aktivní v průběhu celého akademického roku a jeho aktivita se zvyšovala až s termínem odevzdání. Díky tomu v práci chybí propracovanější diskuse k výsledkům. Přes uvedené výtky se student dokázal dobře zorientovat v tématice zahrnující jak bioinformatické znalosti, tak i znalosti predikčních algoritmů, a proto práci doporučuji k obhajobě a hodnotím stupněm (C - 78 bodů).
Student Daniel Komjaty vypracoval bakalářskou práci na téma genomické predikce s využitím predikčních metod založených na strojovém učení. Cílem práce bylo navrhnout predikční model založeny na hlubokém učení pomocí LSTM sítí. Jako modelový experimentální organismus byla zvolena rostlina Arabidopsis thaliana. Práce je členěna do 5 kapitol, je psána na celkem 58 stranách včetně příloh a obsahuje 36 literárních pramenů. Zde je potřeba poznamenat, že text je úsporný a v některých částech na mezi akceptovatelnosti s ohledem na zadání práce. První část je rešeršní a popisuje dostatečné minimum nezbytných informací týkajících se celogenomových asociačních studií a predikčních technik. Popis je však místy špatně srozumitelný a zasloužil by si důkladnou gramatickou kontrolu, respektive korekci. Kapitola 4. Implementace predikčních modelů byla zřejmě zamýšlena i jako část řešení projektu, obsahuje však některé rešeršní informace o predikčních modelech. Kapitola 5. již rovnou uvádí výsledky projektu. Schází podrobnější zdůvodnění navrženého řešení, které by mělo kapitole 5 předcházet. Po výsledkové části bych očekávala podrobnou diskusi, která by zhodnotila vhodnost a účinnost řešení. Po formální stránce lze v práci najít nevhodné formulace vyvolávající řadu dotazů (například tvrzení o nejlepších výsledcích bez zdůvodnění, resp. bez obvyklé kvantifikace). Celkové řešení je zjevně vhodné a autor nepochybně nastudoval a ověřil pro něj nové způsoby práce s genomickými daty. Je škoda, že v kritických částech není text podrobnější a srozumitelnější a práce tak působí dojmem dokončování za nedostatku času. Práci hodnotím jako průměrnou. Zadání bylo splněno, nicméně autor nevyužil potenciál zadání a možnosti vypracovat užitečné řešení s možností navázat na něj. Práci doporučuji k obhajobě.
eVSKP id 159700