Optimalizace řízení s pomocí zpětnovazebního učení na platformě Robocode

Loading...
Thumbnail Image
Date
Authors
Pastušek, Václav
ORCID
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Tato diplomová práce se zabývá optimalizací řízení tankového robota v prostředí Robocode za využití zpětnovazebního učení. Komplexita tohoto problému spadá do třídy EXPSPACE, což představuje výzvu, kterou nelze podcenit. Teoretická část práce pečlivě zkoumá platformu Robocode, koncepty zpětnovazebního učení a příslušné algoritmy, zatímco praktická část se zaměřuje na optimalizaci agenta, implementaci zpětnovazebních algoritmů a vytvoření uživatelsky přívětivého rozhraní pro snadné trénování a testování modelů. V rámci práce bylo natrénováno a otestováno celkem 64 modelů, jejichž data a parametry jsou vzájemně srovnávány a prezentovány v přiložených databázích a grafech. Nejlepší výsledky v průměrném počtu zásahů na epizodu dosáhly modely s označením v0.8.0 a v1.0.0. U prvního z nich se projevila určitá schopnost vyhýbání se střelám, zatímco u druhého byly pozorovány úspěšnější zásahy.
This master's thesis focuses on optimizing the control of a tank robot in the Robocode environment using reinforcement learning. The complexity of this problem falls into the EXPSPACE class, presenting a challenge that cannot be underestimated. The theoretical part of the thesis meticulously examines the Robocode platform, concepts of reinforcement learning, and relevant algorithms, while the practical part focuses on optimizing the agent, implementing reinforcement learning algorithms, and creating a user-friendly interface for easy training and testing of models. A total of 64 models were trained and tested as part of the thesis, with their data and parameters compared and presented in accompanying databases and graphs. The best results in terms of average hits per episode were achieved by models labeled v0.8.0 and v1.0.0. The first model exhibited a certain ability to evade shots, while the second model showed more successful hits.
Description
Citation
PASTUŠEK, V. Optimalizace řízení s pomocí zpětnovazebního učení na platformě Robocode [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
bez specializace
Comittee
doc. Ing. Petr Mlýnek, Ph.D. (předseda) doc. Ing. Ivo Lattenberg, Ph.D. (místopředseda) Ing. Radim Číž, Ph.D. (člen) Ing. Stanislav Uchytil, Ph. D. (člen) Ing. Vojtěch Myška, Ph.D. (člen) Ing. Michal Mahút (člen)
Date of acceptance
2024-06-06
Defence
Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta. Otázky komise, rozprava: 1) Ovládá se v aréně pozue jeden tank a ostatní mají své role předprogramované? - Student vysvětlil otázku. 2) V práci není vidět GUI, pouze popis, ani nebylo prezentováno. Implementoval jste jej tedy? - Student vysvětlil otázku. Otázky oponenta, posudek: 1) V kapitole 2.1 jsou uvedeny údaje o době volání Python skriptu. Na základě kolika měření byly získány prezentované hodnoty? - Student vysvětlil otázku. 2) V textu práce je uvedeno, že platforma vyžaduje JDK ve verzi 11 a vyšší. Avšak v příloze „A – Volání programu“ je zmíněna potřeba JDK 1.8 od IBM. Který z požadavků platí a je nutná konkrétní IBM distribuce? - Student vysvětlil otázku.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO