Metody pro hraní hry 'Liar's Dice' s využítím dynamického programování
Loading...
Date
Authors
ORCID
Advisor
Referee
Mark
D
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato práce se řeší metody hraní hry Liar's Dice s využitím dynamického programování. Jako přístup k této práci jsem si zvolil z posilovaného učení algoritmus SARSA, který je upravenou verzí algoritmu Q-Learning. Tento algoritmus jsem pak porovnával s již existujjícími přístupy tím způsobem že jsem jej nechal proti sobě hrát za pomocí aplikace kterou jsem si vytvořil v Unity. Porovnával jsem konkrétně s algoritmy Q-Learning a Counterfactual Regret Minimization. Podařilo se mi dosáhnou úspěšnosti 69,147\,\% ve hře proti Q-Learning a úspěšnosti pouze 29,84\,\% proti algoritmu Counterfactual Regret Minimization. Hlavním zjištěním této práce je, že upravená verze SARSA algoritmu je velmi efektivní ve hře proti Q-Learning algoritmu. Dalším zjištěním je, že při hraní proti Counterfactual Regret Minimization algoritmu je SARSA algoritmus ve značné nevýhodě.
This project is about Methods of playing game Liar's Dice using dynamic programming. The algorithm that I chose for my study is SARSA, short for State Action Reward State Action algorithm. It is a modified version of algorithm named Q-Learning. I compared SARSA with other algorithms by letting them play against each other in application that I made in Unity Engine. Algorithms that I compared to SARSA are Q-Learning and Counterfactual Regret Minimization. I achieved a 69,147\,\% win ratio in a game against Q-Learning. In games against Counterfactual Regret Minimization it was only 29,84\,\% win ratio. The main outcome of this study is that SARSA, modified version of Q-Learning is effective against Q-Learning algorithm. On the other hand the SARSA algorithm was very ineffective against the Counterfactual Regret Minimization algorithm.
This project is about Methods of playing game Liar's Dice using dynamic programming. The algorithm that I chose for my study is SARSA, short for State Action Reward State Action algorithm. It is a modified version of algorithm named Q-Learning. I compared SARSA with other algorithms by letting them play against each other in application that I made in Unity Engine. Algorithms that I compared to SARSA are Q-Learning and Counterfactual Regret Minimization. I achieved a 69,147\,\% win ratio in a game against Q-Learning. In games against Counterfactual Regret Minimization it was only 29,84\,\% win ratio. The main outcome of this study is that SARSA, modified version of Q-Learning is effective against Q-Learning algorithm. On the other hand the SARSA algorithm was very ineffective against the Counterfactual Regret Minimization algorithm.
Description
Citation
LOHN, M. Metody pro hraní hry 'Liar's Dice' s využítím dynamického programování [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. Ing. František Zbořil, Ph.D. (předseda)
doc. RNDr. Dana Hliněná, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
doc. Ing. Michal Bidlo, Ph.D. (člen)
Ing. Vladimír Veselý, Ph.D. (člen)
Date of acceptance
2023-06-15
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Komise shledala, že práce nesplňuje minimální požadavky kladené na rozsah bakalářské práce a dále konstatuje, že práce obsahuje zásadní nedostatky formálního i prezentačního charakteru (např. chybějící citace zdrojů). Z těchto důvodů se komise rozhodla hodnotit práci jako nevyhovující a navrhuje její úplné přepracování.
Result of defence
práce nebyla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení