Evoluční algoritmy v posilovaném učení

Gulčíková, Sabína

Evoluční algoritmy v posilovaném učení

Files

final-thesis.pdf(2.33 MB)

review_165202.html(8.53 KB)

Authors

Gulčíková, Sabína

Advisor

Sekanina, Lukáš

Referee

Vašíček, Zdeněk

Mark

A

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Funkcia odmeny je jedným z najdôležitejších signálov, ktoré vedú agenta pri učení v konfigurácii bez znalosti modelu prostredia. Prenesenie komplexného cieľa úlohy do ekvivalentného matematického výrazu je netriviálny proces, ktorý pri nesprávnom prístupe môže viesť k neželaným javom, ako je zneužívanie odmeny (reward hacking) alebo úplné zlyhanie učenia. Formovanie odmien (reward shaping) je metóda, ktorá agentovi poskytuje dodatočné informácie o úlohe s cieľom zlepšiť efektivitu a stabilitu jeho učenia. Táto diplomová práca sa zaoberá použitím genetického programovania na evolúciu formovacích funkcií odmeny, čím presúva záťaž návrhu z manuálneho procesu na automatickú evolúciu riadenú vhodne navrhnutou fitness funkciou. Tá umožňuje optimalizáciu zameriavať na požadované správanie agenta a priebeh učenia, výsledkom čoho je možnosť objaviť vhodné formy odmeňovania. Kvalitu tohto prístupu vyhodnocujeme na úlohe CartPole a porovnávame ho s prístupmi založenými na náhodne vygenerovaných aj ručne navrhnutých funkciách, ako aj so základným prístupom bez dodatočnej funkcie odmeny. Okrem štandardného učenia vyhodnocujeme aplikácie vyvinutých funkcií v rámci tzv. transfer učenia, pričom sa zameriavame na ich robustnosť a dopad na agentovu schopnosť učiť sa aj v prostrediach so zmenenou dynamikou, bez potreby dodatočnej zmeny hyperparametrov.
Reward function is one of the key signals guiding agents during learning in a model-free reinforcement learning setup. Translating a complex task objective into a meaningful mathematical expression is a non-trivial process, which, if done incorrectly, can lead to negative side effects such as reward hacking or complete failure to learn. Reward shaping is a method of providing additional information about the task to improve learning efficiency and stability, offering potential for alleviating problems stemming from incorrect reward design. This thesis explores the use of genetic programming for evolving reward shaping functions, shifting the design burden from manual engineering to the evolution of reward functions guided by a fitness function. The fitness function allows for direct optimization of desired agent behaviors and smooth learning dynamics, letting evolution discover suitable reward transformations. We evaluate this approach on the CartPole control task, and compare it against randomly obtained and manually designed shaping reward functions, as well as shaping-free approaches. In addition to standard learning, we examine the application of evolved functions in a transfer learning scenario, evaluating their robustness and impact on the agent's ability to learn in an environment with modified dynamics without the need for further hyperparameter tuning.

Keywords

posilované učenie, evolučné výpočty, evolučné posilované učenie, evolučný dizajn hodnotiaceho signálu, DQN algoritmus, PPO algoritmus, CartPole úloha, generalizácia, reinforcement learning, evolutionary computation, reward shaping, evolutionary reward design, DQN algorithm, PPO algorithm, CartPole task, generalization

Citation

GULČÍKOVÁ, S. Evoluční algoritmy v posilovaném učení [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

en

Study field

Strojové učení

Comittee

doc. Ing. Lukáš Burget, Ph.D. (předseda) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)

Date of acceptance

2025-06-26

Defence

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení