VYMAZAL, J. Posilované učení pro multiagentní systémy [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Posudky

Posudek vedoucího

Zbořil, František

I když student pracoval převážně samostatně a o průběhu projektu mě informoval jen příležitostně, z pohledu vedoucího hodnotím jeho práci celkově stupněm B. Domnívám se, že se projektu skutečně věnoval a dosáhl výsledků, ve které jsme doufali. Ty mohou vylepšit fungování multiagentního systémů pro zadanou úlohu Agens Assemble   oproti dosavadním přístupům.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Zadáním projektu bylo aplikovat metody multiagentního posilovaného učení (MARL) na úlohu Agents Assemble, která byla součástí soutěže Multi-Agent Programming Contest v letech 2019 až 2022. Náročnost zadání odpovídala požadavkům na diplomovou práci. Student mohl čerpat inspiraci z řešení týmů, které se soutěže zúčastnily, a dále je rozšířit právě o přístup MARL. Výsledkem bylo, že agenti byli schopni samostatně a flexibilně vykonávat závěrečné úkony potřebné pro odevzdání výrobku, tedy sestavení bloků v cílové zóně.
Práce s literaturou Podstatou zadání bylo, aby se student seznámil s aktuálními metodami multiagentního posilovaného učení (MARL). Jedná se o dynamicky se rozvíjející oblast, ve které neustále vznikají nové modely a přístupy. Z tohoto důvodu bylo nezbytné pracovat s nejnovějšími odbornými zdroji. Student se měl dále seznámit s dosavadními řešeními úlohy Agents Assemble , která využívala jiné přístupy než MARL.
Aktivita během řešení, konzultace, komunikace Student vprvním semestru pobýval na studijním pobytu vzahraničí, a proto jsem byl o průběhu zpracování práce informován pouze distančně. I vnásledujícím semestru probíhaly konzultace spíše sporadicky a měly převážně informativní charakter. Student na práci pracoval samostatně a průběžně informoval o tom, že dosahuje přijatelných výsledků.
Aktivita při dokončování Student pracoval až do závěrečných dní před termínem odevzdání a souběžně s tím psal text práce. Proto jsem s jeho finální verzí nebyl obeznámem a nemohl jsem ji důkladněji korigovat.
Publikační činnost, ocenění Doposud žádná.
Navrhovaná známka
B
Body
80

Posudek oponenta

Janoušek, Vladimír

Hodnocení odráží relativní náročnost zadání, množství provedených experimentů, použitelný realizační výstup, ale také nedostatky v dokumentaci návrhu a ve struktuře technické zprávy.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Za mírně obtížnější ale považuji průnik do problematiky a nutnost mnoha experimentů.
Rozsah splnění požadavků zadání
Rozsah technické zprávy 69 stran v LaTeXu.
Prezentační úroveň technické zprávy 60 Teoretický úvod začíná optimalizací politik. Text vychází ze souvislostí s actor/critic metodami, nikoli s RL obecně. Chybí vysvětlení cíle optimalizace. Vypadá, to že chybí začátek úvodu do problematiky. Doporučoval bych začít markovským procesem s odměnami a základními pojmy. V navazujícím textu chybí definice Q a J. Multiagentní přístup začíná až od sekce 2.1.7  MAPPO a pokračuje dalšími variantami RL pro MAS. Všechny tyto přístupy bych viděl raději v kapitole Multiagentni RL, oddělené od obecného základu RL. Celá tato kapitola je velmi rychlým průletem problematikou. Jsou sice uvedeny matematické vztahy, ale pokud si čtenář sám nenastuduje problematiku z originálních zdrojů, získá jen velmi povrchní přehled přístupů. Snadnějšímu pochopení problematiky by napomohly obrázky, které zde fatálně chybí. Kapitola Testovací úlohy: Podkapitola VMAS obsahuje mnoho krátkých sekcí s neformální specifikací. Postrádal jsem formálnější informace, např. definice funkcí odměn apod. V sekci Better transport se nečekaně prolínají obecné informace s vlastními postřehy autora z experimentů. Podkapitola MAPC:  Specifikace mohla být popsána systematičtěji. Nebyly např. vysvětleny role a změny rolí agentů. Jednotlivé sekce MAPC jsou vlastním dílem autora - obsahují návrh testovacích úloh pro prostředí MAPC. Jejich návrh se ale prolíná s informacemi o implementaci a testování.  Jde o neformální a nestrukturovaný text. Chybí obrázky, diagramy a jakákoli formalizace. Jelikož jde o vlastní návrh, očekával bych toto všechno ve speciální kapitole Návrh. Kapitola Experimenty je v pořádku, popisuje experimenty s existujícími úlohami v prostředí VMAS, což byla průprava k návrhu MAS a experimentům v prostředí MAPC. Ve shrnutí ale opět autor komentuje věci, které jsou popsány až v další kapitole. Kapitola 5 Architektura a návrh (očekávané jádro práce) obsahuje ve skutečnosti jen popis implementačních detailů, nikoli návrh. Je tam popsáno Prostředí a Agent. Jsou zde neformálně popsány odpovídající třídy. Postrádal jsem formální návrh - požadavky, class diagram, stavové diagramy, interakci subsystémů.  Kapitola 6 Experimenty v prostředí MAPC je v pořádku. Shrnutí: Ke struktuře zprávy i ke způsobu zpracování teorie a návrhu mám nemalé výhrady. Popis implementace a experimentů je v pořádku.
Formální úprava technické zprávy 75 Typograficky a jazykově práce odpovídá očekávanému standardu. Výjimečně se objevují přetékající řádky. V matematické sazbě v první kapitole v na řadě míst chybí uzavírací závorka. Za problematické považuji příliš mnoho neformálního textu a minimum diagramů v popisu návrhu a implementace.
Práce s literaturou 75 Studijní prameny jsou vybrány smysluplně a jsou správně citovány. Způsob jejich využití v teoretické části ale má jisté rezervy. 
Realizační výstup 90 Realizační výstup zahrnuje konfiguraci vlastních experimentů ve spojitém prostředí VMAS. Jádrem realizačního výstupu práce je implementace prostředí a agenta pro soutěž MAPC. Byly definovány dílčí podúlohy související s touto soutěží, byly provedeny experimenty s variantami řešení a tyto byly vyhodnoceny. Pro nezpochybnitelné prokázání kompatibility realizovaného řešení definicí prostředí MAPC bych ale očekával i využití API referenčního prostředí soutěže.
Využitelnost výsledků Výsledky jsou bezpochyby použitelné pro vývoj soutěžních agentů pro soutěž MAPC.
Navrhovaná známka
C
Body
70

eVSKP id 162967