Posilované učení pro hraní robotického fotbalu

Loading...
Thumbnail Image

Date

Authors

Harag, Miroslav

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Táto práca sa venuje posilňovanému učeniu a jeho aplikácii na vytvorenie agenta pre robotický futbal. Zameriava sa na málo preskúmaný fenomén – vzťahy medzi hodnotami akcií v tom istom stave. Štandardné algoritmy tieto hodnoty považujú za nezávislé, čo však nezohľadňuje realitu prostredí, kde rôzne akcie často vedú do podobných stavov. V práci je zavedený nový koncept konvergencie trajektórií, ktorý formálne popisuje podobnosť akcií na základe ich následných stavov. Na jeho základe je odvodený vzťah bočný odhad, umožňujúci rozšírenie získaných znalostí aj na nezvolené akcie. Tento prístup vedie k efektívnejšiemu využitiu skúseností, rýchlejšiemu učeniu a zníženiu výpočtovej náročnosti. Navrhnutá metóda Shift Tree Backup využíva tieto nové poznatky. Súčasťou návrhu je aj nový mechanizmus tvorby politiky nazvaný investičné prehľadávanie, ktorý ponúka alternatívny prístup k riadeniu rovnováhy medzi prieskumom a využívaním. Metóda bola experimentálne overená v komplexnom prostredí Google Research Football – Academy, kde v niektorých scenároch výrazne prekonala existujúce referenčné metódy ako PPO a IMPALA. Výsledky potvrdzujú potenciál navrhnutého prístupu a motivujú ďalší výskum v tejto oblasti.
This thesis focuses on reinforcement learning and its application to the development of an agent for robotic football. It addresses a rarely explored phenomenon – the relationships between the values of actions within the same state. Standard algorithms typically consider these values to be independent, which does not reflect the reality of environments where different actions often lead to similar states. The thesis introduces a novel concept called trajectory convergence, which formally describes the similarity between actions based on the states that follow them. Based on this concept, a relationship called lateral estimation is derived, allowing the extension of knowledge to actions that were not selected. This approach enables more efficient use of experience, faster learning, and reduced computational cost. The proposed method, Shift Tree Backup, incorporates these new insights. The design also includes a novel policy generation mechanism called investment-based exploration, which offers an alternative approach to balancing exploration and exploitation. The method was experimentally validated in the complex environment of the Google Research Football – Academy, where it significantly outperformed existing reference methods such as PPO and IMPALA in several scenarios. The results confirm the potential of the proposed approach and encourage further research in this area.

Description

Citation

HARAG, M. Posilované učení pro hraní robotického fotbalu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Strojové učení

Comittee

prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)

Date of acceptance

2025-06-24

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO