Posudky závěrečné kvalifikační práce

Posudek vedoucího

Sedlář, Karel

Student Maksim Liukshin ve své bakalářské práci navrhl a realizoval vlastní výpočetní nástroj pro vyhledávání ortologních sekvencí, založený na profilových skrytých Markovských řetězcích. Momentální verze práce, je přepracovanou, v červnu neobhájenou bakalářskou prací. V rámci literární rešerše shrnuje základní pojmy z oblasti genetických vztahů, podrobně vysvětluje princip skrytých Markovských modelů, databází biologických sekvencí a nástrojů pro jejich zarovnávání. Navíc přidává i kapitolu o polyhydroxyalkanoát (PHA) syntázách, což jsou enzymy, jejichž sekvence jsou nadále využity pro ověření funkce navrženého nástroje. Tato část práce je poměrně zdařilým přehledem, jen s občasnými chybami či nepřesnostmi, kterých je ale výrazně méně než v předchozí verzi práce. Oproti předchozí verzi pak došlo k výraznému doplnění analýzy a srovnání současných nástrojů na vyhledávání ortologů, čímž dle mého soudu došlo ke splnění bodu 3 zadání, který byl hlavním důvodem neobhájení předchozí verze práce. Dále je v práci poměrně podrobně popsán navržený nástroj, který má i přehledný online repozitář na GitHubu. V poslední části práce jsou pak shrnuty a diskutovány výsledky pro vyhledávání 4 tříd PHA syntáz. V předchozí verzi práce byla tato část postavena odvážném, leč smyslu postrádajícím textu, vygenerovaném pomocí UI. Největší přešlapy jsou zde eliminovány, takže už se zde nehovoří o bitevním skóre, a aminokyselinový zbytek se v textu vyskytuje už pouze jednou. Což je ale pořád o jeden víc výskytů, než by mělo být. A také zmizela nepoložená tvrzení v rámci diskuse. Ta ovšem nebyla ničím nahrazena, čímž se celá diskuse velmi omezila spíše na popis výsledků, který ale ani tak není ideální, protože není vysvětleno, co je to vlastně to bitové skóre, které je x textu zmiňováno opakovaně. Také některé shluky ve výsledných stromech nejsou reálnými shluky, ale jsou to vlastně sekvence mimo zbylé popsané shluky. Závěrem je tedy ještě nutné zopakovat, že aktivita studenta během akademického roku byla podprůměrná, orientovaná až na konce obou semestrů. Práce navíc obsahuje množství překlepů a dalších stylistických prohřešků, např. latinské názvy nejsou vždy psané kurzívou. Práce s literaturou, byť byla během semestru značně vylepšena, tak pořád není ideální a často je složité konkrétní pojmy spojit s odpovídající referencí. Také musím zmínit, že jak předtím, tak ani teď student nereflektoval všechny mé poznámky, nebo je reflektoval, ale špatně. Ostatně je to čtenáři patrné hned při čtení abstraktu, který začíná „Tento práce…“. Tento přístup mi vadí a bere mi cenný čas. Po vypuštění teorií UI vlastně už práce ani není tak zajímavá a navíc je celkem zbytečně dlouhá a je utrpení ji číst. I tak práci hodnotím jako dostatečnou, protože zadaní bylo splněno.

Navrhovaná známka: E

Body: 52

Posudek oponenta

Musilová, Jana

Kapitoly věnované teoretické části zůstaly beze změny. Jsou kvalitně zpracované, body 1 a 2 zadání proto považuji za bezpochyby splněné. Nicméně ne všechny informace na sebe plynule navazují a text by celkově získal na čtivosti při sjednocení stylu a důslednějším propojení jednotlivých částí. Bod 3, vyzkoušení různých nástrojů na zvoleném genu, který v původní práci chyběl, student doplnil. Bod 4, implementace vlastního algoritmu, je zpracován velmi kvalitně – algoritmus je napsán v jazyce Python a využívá principy objektově orientovaného programování (třídy), což přesahuje znalosti bakalářského studia. Tento bod tedy považuji za splněný. Kapitola 6 (Výsledky) je přepracována - v původní verzi byla vygenerována čiště LLM a obsahovala řadu nepravdivých informací a nepodložených závěrů. Bohužel nyní chybí diskuze výsledků, což je součást zadání (bod 6). Tento bod tedy považuji za částečně nesplněný. Formálně se v práci stále objevují nedostatky. Například v kapitole chybí text a rovnou nazavuje podkapitola, kvalita obrázků není dobrá, text v některých místech ujíždí za okraje. Také zadání nebylo aktualizováno - stále obsahuje datum odevzdání 3. 6. 2025. Stejně tak nebyla přidána informace o využití LLM, přestože student generování kapitol potvrdil při první obhajobě a upozornila jsem ho, že toto by mělo být v práci uvedeno. Také se v práci stále vyskutuje pojem bitové skóre, přestože na to byl student upozorněn jak v původním posudku vedoucího, tak při obhajobě. Opravdu nepovažuji za ideální, pokud student nereflektuje ani tolikrát zmiňovanou chybu. Celkově hodnotím praktickou část jako nadprůměrnou, ale samotnou práci jako značně podprůměrnou. Navrhuji hodnocení F, 45 bodů, jelikož si nemyslím, že dosahuje standardů našeho ústavu a její uznání by mohlo nesprávně signalizovat, že tato úroveň je dostačující.

Navrhovaná známka: F

Body: 45