Metody pro hraní hry Liar's Dice s využítím dynamického programování

Loading...
Thumbnail Image
Date
Authors
Lohn, Marek
ORCID
Mark
D
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato práce řeší metody hraní hry Liar’s Dice s využitím dynamického programování. Pro přístup k této práci byl zvolen algoritmus posilovaného učení SARSA, který je upravenou verzí algoritmu Q-Learning. Tento algoritmus byl následně porovnáván s již existujícími přístupy takovým způsobem, že byl ponechán hrát proti nim za pomocí aplikace, která byla vytvořena v herním engine Unity. Porovnávání proběhlo konkrétně nad algoritmy Q-Learning a Counterfactual Regret Minimization. Ve výsledku bylo dosaženo úspěšnosti 69,147 % ve hře proti Q-Learning a úspěšnosti pouze 25 % proti algoritmu Counterfactual Regret Minimization. Tato práce poskytuje hlavní přehled o tom, jak upravená verze algoritmu SARSA je velmi efektivní ve hře proti algoritmu Q-Learning. Při hraní proti algoritmu Counterfactual Regret Minimization je algoritmus SARSA ve značné nevýhodě.
This project is about Methods of playing game Liar’s Dice using dynamic programming. The algorithm that was chosen for my study is SARSA, short for State Action Reward State Action algorithm. It is a modified version of algorithm named Q-Learning. It comparing algorithm SARSA with other algorithms by letting them play against each other in application, that was made in Unity Engine. Algorithms that were compared to SARSA are Q-Learning and Counterfactual Regret Minimization. SARSA achieved a 69,147 % win ratio in a game against Q-Learning. In games against Counterfactual Regret Minimization it was only 25 % win ratio. The main outcome of this study is that modified SARSA is effective against Q-Learning algorithm in a game of Liar’s Dice. On the other hand the SARSA algorithm was very ineffective against the Counterfactual Regret Minimization algorithm.
Description
Citation
LOHN, M. Metody pro hraní hry Liar's Dice s využítím dynamického programování [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. RNDr. Pavel Smrž, Ph.D. (předseda) Ing. Aleš Smrčka, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) doc. Ing. Jan Kořenek, Ph.D. (člen)
Date of acceptance
2024-06-11
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO