CEJPEK, M. Heuristiky pro hraní hry Scotland Yard [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Zbořil, František

Hodnotím aktivitu studenta i s přihlédnutím k posledním dvěma měsícům, který měl na dopracování práce, stupněm C na jeho spodní hranici.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Zadáním bylo aplikovat metody strojového učení pro počítačovou hru typu 'na schovávanou', konkrétněji o hru založenou na hře Sotland Yard. Výsledná aplikace je funkční a byl upraven text, se kterým student neuspěl při prvním termínu obhajob. Nynější text považuji za lepší a přijatelnější k obhajobě.
Práce s literaturou Student si volil literaturu sám či po konzultaci. 
Aktivita během řešení, konzultace, komunikace Jedná se o opravný termín zkoušky. Během letních měsíců student projevil snahu text opravit a zlepšit.
Aktivita při dokončování Mohl jsem zhodnotit zvolené úpravy textu v dostatečném předstihu. Několik doporučení, které jsem k textu měl, student zapracoval.
Publikační činnost, ocenění Není mi známa.
Navrhovaná známka
C
Body
70

Posudek oponenta

Zbořil, František

Z důvodů popsaných výše hodnotím bakalářskou práci Michala Cejpka jako uspokojivou / D.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Posuzovaná bakalářská práce je přepracovanou prací, jejíž původní verzi student v řádném termínu neobhájil. Mohu proto pouze opakovat, že zadání práce považuji za obtížnější, protože jeho cílem bylo prostudovat a použít metody posilovaného a hlubokého učení pro řešení relativně obtížné hry.
Rozsah splnění požadavků zadání Student se v přepracované práci zabýval stejnou hrou, kterou se zabýval i v původní verzi práce a která je výrazným zjednodušením hry Scotland Yard. Tentokrát mohu konstatovat, že student zadání splnil, nicméně s výhradami, které uvádím níže v hodnocení prezentační úrovni zprávy. 
Rozsah technické zprávy Rozsah technické zprávy je stále na spodní hranici požadovaného rozsahu (45 stran, 54 normostran), oproti původní verzi (37 stran, 45 normostran) byla doplněna část týkající se implementace systému. Toto doplnění a některé další menší úpravy/opravy textu přispěly k lepší představě o přístupu studenta k řešenému problému .
Prezentační úroveň technické zprávy 60 Prezentační úroveň technické zprávy je sice lepší než úroveň původní neobhájené bakalářské práce, nicméně i nyní mám několik vážnějších připomínek: Popis hry Scotland Yard v kapitole 2.1 je příliš stručný a není ani úplný, naopak kapitola 2.2 je zcela zbytečná, protože její obsah nijak nepřispívá k řešenému problému. V algoritmech 1 a 2 se budou stále vybírat náhodné akce, protože hodnota parametru epsilon se v těchto algoritmech nemění. V bodu 10 algoritmu 2 není zřejmé, co znamená "vzorkuj náhodnou skupinu přechodů" a v bodu 13 se metodou gradientního vzestupu nebude ztráta minimalizovat, ale bude se naopak zvyšovat. Algoritmus 3 (7 kroků) je oproti algoritmu 2 (18 kroků) příliš stručný. Chybí v něm nastavení příslušných parametrů a především pak výpočet účelové funkce z rovnice (3.9) a jejího gradientu. V kapitole 4 je student nedůsledný v rozlišování agentů a jejich typů. Je zřejmé, že ve hře nejde o dva, ale o čtyři agenty se dvěma různými strategiemi (jednu strategii používá pan X a druhou policisté). O některých prvcích vstupních vektorů obou popisovaných neuronových sítí, v práci označovaných jako "viditelné stavy prostředí", by bylo možné diskutovat (aktuální kolo, počet kol, vzdálenosti).    Popisy všech pěti algoritmů v kapitole 4.4 nejsou příliš jasné a nejsou uvedené ani v logickém pořadí. Tato kapitola je tak ke škodě celé zprávy její nejslabší částí. V kapitole 5 jsou ve všech grafech ypsilonové osy označené jako "hodnota", ale není zřejmé, o jakou hodnotu jde. Navíc tyto osy mají v těchto grafech různá měřítka. 
Formální úprava technické zprávy 60 Formální úprava nové technické zprávy je také lepší, něž byla formální úprava zprávy původní bakalářské práce, stále se však v textu vyskytuje řada nedokonalostí, nepřesností a překlepů. Například "Prostředí poskytuje agentovi informace o stavu", "Spojitý akční prostor může například ovládat sílu stlačení pedálu", "optimálnější strategie", "graf simulace", "textbf9 Chamtivá strategie ", apod. Některé zkratky použité v textu nejsou vůbec vysvětlené (Marl, ACER), pořadí klíčových slov by mělo být v angličtině stejné jako v češtině a průměrné vzdálenosti mezi panem X a policisty uvedené na str. 41 na 15 desetinných míst nelze brát vážně.
Práce s literaturou 55 V závěrečné seznamu literatury je uvedeno 22 publikací, v textu zprávy jsou však odkazy pouze na 3 z nich. Není proto jasné, zda všechny z těchto publikací student prostudoval, i když je zřejmé,  že některé informace, především pak rovnice a algoritmy uvedené ve zprávě, odněkud převzít musel. V seznamu použité literatury pak chybí všechny tři publikace uvedené v zadání práce jako základní.
Realizační výstup 65 Realizační výstup je funkční pouze s omezením. Spustitelný je hlavní program s pevně nastaveným počtem kroků hry a s možností volby jednoho ze tří algoritmů pro pana X a jednoho ze stejných tří algoritmů pro agenta představujícího policisty. Chybí jakákoliv možnost změn, možnost krokování a v konzolovém výstupu bych místo oznámení o konci každé hry očekával informaci o tom, kdo v této hře zvítězil. Dva programy pro učení agentů lze sice také spustit, ale není zřejmé co a jak učí, co znamenají výpisy během učení, ani jak jsou pak využity výsledky tohoto učení.
Využitelnost výsledků Práce jistým způsobem navazuje na několik předchozích bakalářských prací, které zadaný problém řešily jinými přístupy a s nepříliš dobrými výsledky. Výsledky této práce v praxi také využitelné nebudou, mohou však sloužit pro další zdokonalování učení této, resp. nějaké podobné hry.
Navrhovaná známka
D
Body
60

Otázky

eVSKP id 162128