Posudky závěrečné kvalifikační práce

Posudek vedoucího

Smrž, Pavel

Celkově hodnotím aktivitu studenta při řešení bakalářské práce jako dobrou, tedy stupněm C. Díky zvýšenému úsilí v letním semestru se mu podařilo dotáhnout implementaci nových strategií napovídání a otestovat systém na rozumném vzorku dat. S výsledkem jsem spokojen.

Dílčí hodnocení
Kritérium	Známka	Body	Slovní hodnocení
Informace k zadání			Zadání navazovalo na sérii předchozích absolventských prací, věnovaných automatickému hraní Krycích jmen na základě pokročilých asociačních modelů slov, přičemž cílem bylo vylepšit dříve realizované strategie napovídání. I přes pomalejší rozjezd a počáteční tápání se studentovi podařilo upravit stávající systém tak, že zlepšuje některé aspekty generování nápověd. Výsledek tedy splnil očekávání a jsem s ním spokojen.
Práce s literaturou			Student pracoval s poměrně omezenou sadou studijních materiálů, například téma sjednocení dílčích asociačních modelů, případně jejich úplné nahrazení modely extrahovanými z nejmodernějších natrénovaných velkých jazykových modelů zůstalo nepokryto. Zpracovaný rozbor řešené problematiky také svědčí o pouze průměrné práci s dostupnou literaturou.
Aktivita během řešení, konzultace, komunikace			Aktivita během řešení nebyla soustavná, nicméně student věnoval nakonec práci náležitou pozornost a dokončil řešení v daném termínu. Konzultace probíhaly pravidelně až do posledních týdnů letního semestru, kdy se bohužel student, částečně kvůli zdravotním problémům, na poměrně dlouhou dobu odmlčel.
Aktivita při dokončování			Z výše uvedeného důvodu jsem bohužel neměl možnost konzultovat definitivní obsah práce a technickou zprávu v ucelené podobě jsem viděl až po odevzdání.
Publikační činnost, ocenění			-

Navrhovaná známka: C

Body: 75

Posudek oponenta

Neprašová, Kateřina

Práce splnila zadání a přináší rozšíření existujícího systému. Přestože je systém funkční a výsledky experimentů ukazují zlepšení výhernosti i srozumitelnosti nápověd, zpracování některých klíčových aspektů je pouze stručné a místy vágní, chybí popis práce s nově získanými daty z her. Práce obsahuje i formální nedostatky, jako jsou typografické chyby a chybějící citace. V některých částech kódu chybí jasné označení vlastních úprav a vyskytují se zde zbytečné debugovací výpisy. Přes tyto výhrady má práce praktický přínos, je využitelná v praxi a představuje posun oproti předchozím řešením, nicméně ji navrhuji hodnotit známkou C.

Dílčí hodnocení
Kritérium	Body	Slovní hodnocení
Náročnost zadání		Zadání vyžadovalo nastudování problematiky teorie her a modelů sémantické podobnosti. Zároveň bylo nutné se zorientovat v již existujících zdrojových kódech, na které student navazuje.
Rozsah splnění požadavků zadání		Zadání bylo splněno s výhradou k bodu 2: v práci chybí podrobnější popis zpracování nově shromážděných dat z her, přičemž jsou uvedeny pouze souhrnné výsledky testování. Práce však navíc poskytuje vyhodnocení systému na vytvořeném simulátoru her i ve hrách s reálnými hráči.
Rozsah technické zprávy		Některé zásadní aspekty jsou v práci zpracovány pouze stručně (například v kapitolách 3 a 4), ačkoli se jedná o klíčové faktory. Kapitola 4.1, věnovaná modelům sémantické podobnosti, se navíc vůbec nezabývá problematikou víceznačnosti, která je však pro dané téma též podstatná.
Prezentační úroveň technické zprávy	70	Kapitoly práce jsou strukturované logicky a navazují. Hlavními problémy práce jsou vágnost a nekonkrétnost. V kapitole 3.1 je uvedeno, že " Výrazně lepší výsledky měli agenti ve zjednodušených verzích hry, kde bylo méně slov a některé modely se dokázaly učit lépe. " Jaké výsledky, či jakým způsobem byly měřeny však chybí. V popisu rovnice 5.2 chybí popis proměnné vi. V kapitole 6.3 o chybách v dodržování pravidel hry student uvádí, že " Druhým problémem bylo porušení pravidel, kdy se kořen slova nápovědy shodoval s nějakým kořenem slova na hrací ploše. K tomuto porušení docházelo velmi často místo občasného výskytu. Popis míry a jejího testování chybí. Nejasné hodnocení, například: neexistující pokyny pro anotátory při lidském hodnocení. Nedostatečný popis vybraných metrik – nejasný popis, jak je podložena váha diskontovaného skóre. Chybí popis rozboru logů z her lidských i simulovaných agentů.
Formální úprava technické zprávy	65	Práce je čtivá, vypadá to však, že si ji student před odevzdáním neměl čas znova přečíst. V práci se vyskytuje mnoho drobných chyb, například název kapitoly 7: " Návrh a mplementace ", s chybějícím " i " ve slově implementace, či chyba v hned první větě úvodu: " Hra Krycí jména je slovně-asociační hra pro více hráčů, kde hlavní úlohou vytvářet nápovědy, ... " kde předpokládám chybí " je ": "..., kde je hlavní úlohou ..." . Zároveň mají některé věty zpřeházený slovosled, např. v kapitole 7.1: "... má specifickou funkci a jinak pracuje s jazykovými model. "– správně: " ... a pracuje s jazykovými model y jinak. " , či 7.2: " že byl vygenerován slovník vhodných nápověd znovu. " – vhodnější " že byl znovu vygenerován slovník vhodných nápověd ". Text kapitol zpravidla začíná nadpisem podkapitoly. V kapitole 3.2 je vlivem pevné mezery před citací rozbité zarovnání. Občas se v práci vyskytuje stylová nekonzistence, např. v kapitole 4.3.1 student píše o modelech " Modely typu GPT (Generative Pre-trained Transformer) ...", o odstavec níže píše " To řeší model CTRL, který ..." aniž by zkratku rozepsal, přičemž se v obou případech jedná o první výskyt této zkratky. Občas je v textu na kapitoly/vzorce odkazováno pouze číslem v textu, bez použití odkazu, např. odkaz na kapitolu 5.3 v prvním odstavci kapitoly 5. Obsah stran 19 a 35 je nečekaně ukončen, z mého pohledu bez důvodu.
Práce s literaturou	59	U některých metod a tvrzení chybí citace původní práce/podpůrných faktů, např.: v kapitole 4.2 je uvedeno: " Obecně pro korpusy platí, že nestačí jen nasbírat co nejvíce textů. Důraz je kladen také na rovnováhu mezi jednotlivými typy dat. Korpus by tedy neměl být pouze obrovský sběr z jednoho zdroje jako jsou například komentáře uživatelů webů. Čím pestřejší je zastoupení různých typů textu, tím vhodnější je korpus pro analýzu jazykových struktur. " zdroj informací chybí. v kapitole 4.3.1 je uvedeno: " Modely typu GPT (Generative Pre-trained Transformer) patří mezi takzvané dekodérové transformery. Tato architektura určuje, že se při generování textu dívají pouze doleva. Jinými slovy berou v úvahu jen to, co už bylo řečeno. Vhodné jsou proto pro úlohy, kde se přirozený text skládá postupně. " zdroj informací chybí. Zejména v kapitole 4 se odkaz citace (rámeček [X]) nachází bezprostředně za posledními větami odstavců, buďto se jedná o špatné formátování, nebo chybí zdroje ostatních informací v těchto odstavcích. Celá kapitola 5 vychází ze 2 zdrojů, ty jsou sice uvedeny na jejím začátku, není ale jasné, které informace odkud pochází. Některé citace nejsou správně formulovány – chybí datum přístupu.
Realizační výstup	85	Kód je dokumentován pomocí README, je modulární a komentovaný. Student mi předvedl vytvořené řešení. V některých částech kódu se nacházejí zakomentované „debugovací“ výpisy (printy). Není jasně označené, které části původního kódu student upravoval a které přidal - tomuto se dalo jednoduše vyhnout např. využitím třídní dědičnosti, jelikož je původní kód strukturován do tříd, což se v kódu této práce nemění. Popis architektury systému je relativně stručný a neobsahuje detailní diagramy nebo pseudokód, které by umožnily čtenáři lépe pochopit implementační rozhodnutí. V kapitole o webové aplikaci chybí informace o použité technologii, uživatelském rozhraní a případných limitech nasazení. Přestože je popsán experiment s reálnými hráči, chybí hlubší diskuse o statistické významnosti výsledků, vlivu náhody a velikosti vzorku. Výsledky jsou prezentovány převážně deskriptivně, bez hlubší analýzy možných zkreslení nebo omezení.
Využitelnost výsledků		Práce navazuje na předchozí systémy využívající počítač pro nápovědu ve hře Krycí jména a dále je rozvíjí. Autor identifikuje slabiny předchozího systému (např. absence strategického plánování, slabá adaptace, nízká interpretovatelnost nápověd) a navrhuje nové rozšíření, které tyto nedostatky odstraňuje. Hlavní přínos spočívá v integraci stromového plánování a vysvětlování nápověd pomocí GPT-4o. Výsledný systém je integrován do existující webové aplikace a umožňuje interaktivní hraní hry Krycí jména s rozšířenou funkcionalitou.

Navrhovaná známka: C

Body: 70

Otázky

Jak byste řešil situace, kdy GPT model vygeneruje nesmyslné nebo zavádějící vysvětlení nápovědy?
Systém během validace nápověd odstraňuje i legitimní spojení s podobnými podřetězci, ale odlišným významem (např. „pán“ vs. „spánek“). Jak byste navrhl řešit konflikt mezi požadavkem na odstranění neplatných nápověd, jako jsou podřetězcové asociace, a zároveň zachováním těch legitimních, které sice sdílejí podobný podřetězec, ale významově se liší?