Evoluční algoritmy v posilovaném učení

but.committeedoc. Ing. Lukáš Burget, Ph.D. (předseda) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)cs
but.defenceStudentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm A.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSekanina, Lukášen
dc.contributor.authorGulčíková, Sabínaen
dc.contributor.refereeVašíček, Zdeněken
dc.date.accessioned2025-06-27T04:00:30Z
dc.date.available2025-06-27T04:00:30Z
dc.date.created2025cs
dc.description.abstractFunkcia odmeny je jedným z najdôležitejších signálov, ktoré vedú agenta pri učení v konfigurácii bez znalosti modelu prostredia. Prenesenie komplexného cieľa úlohy do ekvivalentného matematického výrazu je netriviálny proces, ktorý pri nesprávnom prístupe môže viesť k neželaným javom, ako je zneužívanie odmeny (reward hacking) alebo úplné zlyhanie učenia. Formovanie odmien (reward shaping) je metóda, ktorá agentovi poskytuje dodatočné informácie o úlohe s cieľom zlepšiť efektivitu a stabilitu jeho učenia. Táto diplomová práca sa zaoberá použitím genetického programovania na evolúciu formovacích funkcií odmeny, čím presúva záťaž návrhu z manuálneho procesu na automatickú evolúciu riadenú vhodne navrhnutou fitness funkciou. Tá umožňuje optimalizáciu zameriavať na požadované správanie agenta a priebeh učenia, výsledkom čoho je možnosť objaviť vhodné formy odmeňovania. Kvalitu tohto prístupu vyhodnocujeme na úlohe CartPole a porovnávame ho s prístupmi založenými na náhodne vygenerovaných aj ručne navrhnutých funkciách, ako aj so základným prístupom bez dodatočnej funkcie odmeny. Okrem štandardného učenia vyhodnocujeme aplikácie vyvinutých funkcií v rámci tzv. transfer učenia, pričom sa zameriavame na ich robustnosť a dopad na agentovu schopnosť učiť sa aj v prostrediach so zmenenou dynamikou, bez potreby dodatočnej zmeny hyperparametrov.en
dc.description.abstractReward function is one of the key signals guiding agents during learning in a model-free reinforcement learning setup. Translating a complex task objective into a meaningful mathematical expression is a non-trivial process, which, if done incorrectly, can lead to negative side effects such as reward hacking or complete failure to learn. Reward shaping is a method of providing additional information about the task to improve learning efficiency and stability, offering potential for alleviating problems stemming from incorrect reward design. This thesis explores the use of genetic programming for evolving reward shaping functions, shifting the design burden from manual engineering to the evolution of reward functions guided by a fitness function. The fitness function allows for direct optimization of desired agent behaviors and smooth learning dynamics, letting evolution discover suitable reward transformations. We evaluate this approach on the CartPole control task, and compare it against randomly obtained and manually designed shaping reward functions, as well as shaping-free approaches. In addition to standard learning, we examine the application of evolved functions in a transfer learning scenario, evaluating their robustness and impact on the agent's ability to learn in an environment with modified dynamics without the need for further hyperparameter tuning.cs
dc.description.markAcs
dc.identifier.citationGULČÍKOVÁ, S. Evoluční algoritmy v posilovaném učení [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other165202cs
dc.identifier.urihttps://hdl.handle.net/11012/255136
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectposilované učenieen
dc.subjectevolučné výpočtyen
dc.subjectevolučné posilované učenieen
dc.subjectevolučný dizajn hodnotiaceho signáluen
dc.subjectDQN algoritmusen
dc.subjectPPO algoritmusen
dc.subjectCartPole úlohaen
dc.subjectgeneralizáciaen
dc.subjectreinforcement learningcs
dc.subjectevolutionary computationcs
dc.subjectreward shapingcs
dc.subjectevolutionary reward designcs
dc.subjectDQN algorithmcs
dc.subjectPPO algorithmcs
dc.subjectCartPole taskcs
dc.subjectgeneralizationcs
dc.titleEvoluční algoritmy v posilovaném učeníen
dc.title.alternativeEvolutionary Algorithms in Reinforcement Learningcs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2025-06-26cs
dcterms.modified2025-06-26-16:13:21cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid165202en
sync.item.dbtypeZPen
sync.item.insts2025.06.27 06:00:30en
sync.item.modts2025.06.27 05:32:04en
thesis.disciplineStrojové učenícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačových systémůcs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.33 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_165202.html
Size:
8.53 KB
Format:
Hypertext Markup Language
Description:
file review_165202.html
Collections