Posudky závěrečné kvalifikační práce

Posudek vedoucího

Sedlář, Karel

Student Maksim Liukshin ve své bakalářské práci navrhl a realizoval vlastní výpočetní nástroj pro vyhledávání ortologních sekvencí, založený na profilových skrytých Markovských řetězcích. V rámci literární rešerše shrnuje základní pojmy z oblasti genetických vztahů, podrobně vysvětluje princip skrytých Markovských modelů, databází biologických sekvencí a nástrojů pro jejich zarovnávání. Navíc přidává i kapitolu o polyhydroxyalkanoát (PHA) syntázách, což jsou enzymy, jejichž sekvence jsou nadále využity pro ověření funkce navrženého nástroje. Tato část práce je poměrně zdařilým přehledem, jen s občasnými chybami či nepřesnostmi, třeba definicí zkratky FFT jako Fourierova frekvenční transformace, kdy ve skutečnosti je zde myšlena rychlá Fourierova transformace (FFT Fast Fourier Transform), která je využita v rámci popisovaného nástroje MAFFT. Dále je v práci poměrně podrobně popsán navržený nástroj, který má i přehledný online repozitář na GitHubu. V poslední části práce jsou pak shrnuty a diskutovány výsledky pro vyhledávání 4 tříd PHA syntáz. Jedná se o 12 stran nesmírně zajímavých výsledků s květnatou diskusí, která ovšem není podložena žádnými literárními zdroji. Osobně se domnívám, že tato část vznikla s bohatým využitím generativní umělé inteligence (UI), jejíž použití ovšem není v práci zmíněno. Samotné využití UI zde vůbec není na škodu, přináší spoustu velmi zajímavých domněnek, problém ovšem je, že tyto nejsou nijak podloženy. Jejich prokázání by byla práce na několik týdnů, které ovšem již student neměl k dispozici, protože jeho aktivita během semestru byla z 90% nahromaděna do posledního týdne před odevzdáním práce. Na tuto diskusi neumím obratem zareagovat ani já, jakožto řešitel projektu GAČR Junior STAR, který se přímo týká daného tématu, což ovšem u absolventské práce může znamenat buď pouze absolutní genialitu studenta, nebo špatně napsanou práci. Zde to upřímně vidím na druhou možnost. Práce navíc obsahuje množství překlepů a dalších stylistických prohřešků, např. latinské názvy nejsou vždy psané kurzívou. Práce s literaturou, byť byla během semestru značně vylepšena, tak pořád není ideální a často je složité konkrétní pojmy spojit s odpovídající referencí. Práce obsahuje i další zvláštní pojmy jako „a.o.“, což je podle chatbota Gemini pravděpodobně „amino acid order“, což by odpovídalo užití v práci, ale obecně jsem se s využitím takové zkratky v praxi nesetkal. Dále se hovoří o pozici v sekvenci i s využitím slova „zbytek“, což také nedává smysl a jedná se o doslovný překlad z angličtiny. Vyloženě úsměvně pak působí pojem „bitevní skóre“, což má být skóre „bitové“, které ale také nelze posoudit, co znamená, protože to není v práci vysvětleno. Autor sice není českým rodilým mluvčím, ale tyto nedostatky by šlo odstranit, kdyby tato část práce nevznikla v posledním týdnu semestru, již bez mého komentáře. Ovšem je pravda, že ani předtím student všechny mé poznámky nereflektoval, nebo je reflektoval, ale špatně. Byť je analýza sekvencí prezentovaná v práci opravdu zajímavá, tak pro malý počet iterací úplně neověřuje schopnost vyhledávat vzdálené ortology, naopak možná někdy i brzo chytá paralogy, což je ale u testovacích sekvencí PHA syntáz tříd III a IV velmi očekávané. Jen by to mělo být lépe diskutované. Závěrem musím říct, že byť má práce obrovské množství nedostatků, tak přináší i zajímavé výsledky, které je možné využit jako základ pro budoucí výzkum. Proto práci doporučuji k obhajobě a hodnotím ji jako uspokojivou.

Navrhovaná známka: D

Body: 62

Posudek oponenta

Musilová, Jana

Kapitoly věnované teoretické části jsou kvalitně zpracované. Body 1 a 2 zadání proto považuji za bezpochyby splněné. Nicméně ne všechny informace na sebe plynule navazují a text by celkově získal na čtivosti při sjednocení stylu a důslednějším propojení jednotlivých částí. Bod 3, tedy vyzkoušení různých nástrojů na zvoleném genu, jsem v textu nenašla. Tento bod tudíž považuji za nesplněný. Bod 4, implementace vlastního algoritmu, je zpracován velmi kvalitně – algoritmus je napsán v jazyce Python a využívá principy objektově orientovaného programování (třídy), což přesahuje znalosti bakalářského studia. Tento bod tedy považuji za splněný. Kapitola 5 (Výsledky) je oproti jiným kapitolám zpracována podstatně podrobněji. V kontextu bakalářských prací se jedná o výrazně nadstandardní zpracování. Body 5 a 6 považuji za splněné nad očekávání – zejména co do rozsahu, hloubky zpracování a formulací, které jsou zde přímější a údernější než v ostatních částech práce. Formálně se v práci objevují drobné nedostatky, například chybějící mezery za referencemi, absence úvodního textu mezi některými kapitolami a jejich podkapitolami, nebo citace uvedené pouze na konci odstavce, ačkoliv se zřejmě vztahují k celému odstavci. Čitelnost některých obrázků je horší. Student kvalitně pracoval s literaturou a využil řadu relevantních odborných zdrojů. Rovněž oceňuji detailní README a dokumentaci v přílohách, stejně jako zpřístupnění kódu na GitHub. Vzhledem k nesplnění jednoho z bodů zadání a částem práce vzbuzující pochybnosti, navrhuji hodnocení F, 48 bodů.

Navrhovaná známka: F

Body: 48

Otázky

Vyjádřete se, prosím, k využití umělé inteligence jak při tvorbě textu práce, tak při řešení praktické části (Python kódu).
Na základě čeho byly určeny hodnoty parametru cluster_threshold pro určení počtu shluků? V kódu se například objevuje hodnota 0.3 – proč byla zvolena právě tato hodnota?
V závěru práce uvádíte: „Ukázalo se, že architektura projektu je modulární.“ Na základě čeho a jak jste k tomuto závěru dospěl?