Evoluční algoritmy v posilovaném učení
Loading...
Date
Authors
Gulčíková, Sabína
ORCID
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Funkcia odmeny je jedným z najdôležitejších signálov, ktoré vedú agenta pri učení v konfigurácii bez znalosti modelu prostredia. Prenesenie komplexného cieľa úlohy do ekvivalentného matematického výrazu je netriviálny proces, ktorý pri nesprávnom prístupe môže viesť k neželaným javom, ako je zneužívanie odmeny (reward hacking) alebo úplné zlyhanie učenia. Formovanie odmien (reward shaping) je metóda, ktorá agentovi poskytuje dodatočné informácie o úlohe s cieľom zlepšiť efektivitu a stabilitu jeho učenia. Táto diplomová práca sa zaoberá použitím genetického programovania na evolúciu formovacích funkcií odmeny, čím presúva záťaž návrhu z manuálneho procesu na automatickú evolúciu riadenú vhodne navrhnutou fitness funkciou. Tá umožňuje optimalizáciu zameriavať na požadované správanie agenta a priebeh učenia, výsledkom čoho je možnosť objaviť vhodné formy odmeňovania. Kvalitu tohto prístupu vyhodnocujeme na úlohe CartPole a porovnávame ho s prístupmi založenými na náhodne vygenerovaných aj ručne navrhnutých funkciách, ako aj so základným prístupom bez dodatočnej funkcie odmeny. Okrem štandardného učenia vyhodnocujeme aplikácie vyvinutých funkcií v rámci tzv. transfer učenia, pričom sa zameriavame na ich robustnosť a dopad na agentovu schopnosť učiť sa aj v prostrediach so zmenenou dynamikou, bez potreby dodatočnej zmeny hyperparametrov.
Reward function is one of the key signals guiding agents during learning in a model-free reinforcement learning setup. Translating a complex task objective into a meaningful mathematical expression is a non-trivial process, which, if done incorrectly, can lead to negative side effects such as reward hacking or complete failure to learn. Reward shaping is a method of providing additional information about the task to improve learning efficiency and stability, offering potential for alleviating problems stemming from incorrect reward design. This thesis explores the use of genetic programming for evolving reward shaping functions, shifting the design burden from manual engineering to the evolution of reward functions guided by a fitness function. The fitness function allows for direct optimization of desired agent behaviors and smooth learning dynamics, letting evolution discover suitable reward transformations. We evaluate this approach on the CartPole control task, and compare it against randomly obtained and manually designed shaping reward functions, as well as shaping-free approaches. In addition to standard learning, we examine the application of evolved functions in a transfer learning scenario, evaluating their robustness and impact on the agent's ability to learn in an environment with modified dynamics without the need for further hyperparameter tuning.
Reward function is one of the key signals guiding agents during learning in a model-free reinforcement learning setup. Translating a complex task objective into a meaningful mathematical expression is a non-trivial process, which, if done incorrectly, can lead to negative side effects such as reward hacking or complete failure to learn. Reward shaping is a method of providing additional information about the task to improve learning efficiency and stability, offering potential for alleviating problems stemming from incorrect reward design. This thesis explores the use of genetic programming for evolving reward shaping functions, shifting the design burden from manual engineering to the evolution of reward functions guided by a fitness function. The fitness function allows for direct optimization of desired agent behaviors and smooth learning dynamics, letting evolution discover suitable reward transformations. We evaluate this approach on the CartPole control task, and compare it against randomly obtained and manually designed shaping reward functions, as well as shaping-free approaches. In addition to standard learning, we examine the application of evolved functions in a transfer learning scenario, evaluating their robustness and impact on the agent's ability to learn in an environment with modified dynamics without the need for further hyperparameter tuning.
Description
Keywords
posilované učenie, evolučné výpočty, evolučné posilované učenie, evolučný dizajn hodnotiaceho signálu, DQN algoritmus, PPO algoritmus, CartPole úloha, generalizácia, reinforcement learning, evolutionary computation, reward shaping, evolutionary reward design, DQN algorithm, PPO algorithm, CartPole task, generalization
Citation
GULČÍKOVÁ, S. Evoluční algoritmy v posilovaném učení [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Strojové učení
Comittee
doc. Ing. Lukáš Burget, Ph.D. (předseda)
prof. Dr. Ing. Jan Černocký (člen)
doc. Ing. Vladimír Janoušek, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Jaroslav Rozman, Ph.D. (člen)
Ing. František Grézl, Ph.D. (člen)
Date of acceptance
2025-06-26
Defence
Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení