Umělá inteligence ve hře Santorini
Loading...
Date
Authors
ORCID
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
V tejto práci som použil učenie odmenou a trestom na vytvorenie inteligentného agenta do Santorini, stolovej hry pre 2 hráčov s nulovým súčtom. Konkrétny použitý algoritmus je modifikovaná verzia Deep Q-learning, s použitím dvoch konvolučných neurónových sietí (jednu na trénovanie, druhú na odhad budúcej Q-hodnoty) a pamäte odohraných ťahov, z ktorých agent pri učení vyberá náhodne. Početnými experimentami sa podarilo natrénovať dva výsledné modely. Prvý model sa trénoval hraním proti jednoduchým botom, ktorých obtiažnosť sa postupne zvyšovala. Druhý model sa trénoval hraním proti sebe. Ukázalo sa, že hranie proti sebe prináša lepšie výsledky, ale oba modely vo finále hrajú horšie ako bot používajúci heuristickú funkciu.
The aim of this thesis was to use create an intelligent agent using Reinforcement learning to play Santorini, a 2-player zero-sum board game. The specific algorithm that was implemented was a modified version of Deep Q-learning, with the use of convolutional neural networks (one for training and the other for estimating future Q-value) and a memory of previously executed moves, from which the agent chooses randomly during training. Numerous experiments resulted in 2 final models. One was trained by playing against basic bots, with gradually increasing difficulty. The other was trained by playing against itself from the start. The outcome shows that the model playing against itself produces better results, however both models still perform worse than a bot which uses heuristic function.
The aim of this thesis was to use create an intelligent agent using Reinforcement learning to play Santorini, a 2-player zero-sum board game. The specific algorithm that was implemented was a modified version of Deep Q-learning, with the use of convolutional neural networks (one for training and the other for estimating future Q-value) and a memory of previously executed moves, from which the agent chooses randomly during training. Numerous experiments resulted in 2 final models. One was trained by playing against basic bots, with gradually increasing difficulty. The other was trained by playing against itself from the start. The outcome shows that the model playing against itself produces better results, however both models still perform worse than a bot which uses heuristic function.
Description
Citation
RYBANSKÝ, A. Umělá inteligence ve hře Santorini [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Document type
Document version
Date of access to the full text
Language of document
sk
Study field
Vývoj aplikací
Comittee
doc. Ing. František Zbořil, Ph.D. (předseda)
doc. Mgr. Adam Rogalewicz, Ph.D. (člen)
RNDr. Marek Rychlý, Ph.D. (člen)
Ing. Libor Polčák, Ph.D. (člen)
Ing. Jiří Hynek, Ph.D. (člen)
Ing. Vladimír Bartík, Ph.D. (člen)
Date of acceptance
2023-06-16
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení