Metody pro hraní hry 'Liar's Dice' s využítím dynamického programování

Lohn, Marek

Metody pro hraní hry 'Liar's Dice' s využítím dynamického programování

Files

final-thesis.pdf(1.06 MB)

review_144953.html(11 KB)

Authors

Lohn, Marek

Advisor

Zbořil, František

Referee

Šátek, Václav

Mark

D

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato práce se řeší metody hraní hry Liar's Dice s využitím dynamického programování. Jako přístup k této práci jsem si zvolil z posilovaného učení algoritmus SARSA, který je upravenou verzí algoritmu Q-Learning. Tento algoritmus jsem pak porovnával s již existujjícími přístupy tím způsobem že jsem jej nechal proti sobě hrát za pomocí aplikace kterou jsem si vytvořil v Unity. Porovnával jsem konkrétně s algoritmy Q-Learning a Counterfactual Regret Minimization. Podařilo se mi dosáhnou úspěšnosti 69,147\,\% ve hře proti Q-Learning a úspěšnosti pouze 29,84\,\% proti algoritmu Counterfactual Regret Minimization. Hlavním zjištěním této práce je, že upravená verze SARSA algoritmu je velmi efektivní ve hře proti Q-Learning algoritmu. Dalším zjištěním je, že při hraní proti Counterfactual Regret Minimization algoritmu je SARSA algoritmus ve značné nevýhodě.
This project is about Methods of playing game Liar's Dice using dynamic programming. The algorithm that I chose for my study is SARSA, short for State Action Reward State Action algorithm. It is a modified version of algorithm named Q-Learning. I compared SARSA with other algorithms by letting them play against each other in application that I made in Unity Engine. Algorithms that I compared to SARSA are Q-Learning and Counterfactual Regret Minimization. I achieved a 69,147\,\% win ratio in a game against Q-Learning. In games against Counterfactual Regret Minimization it was only 29,84\,\% win ratio. The main outcome of this study is that SARSA, modified version of Q-Learning is effective against Q-Learning algorithm. On the other hand the SARSA algorithm was very ineffective against the Counterfactual Regret Minimization algorithm.

Citation

LOHN, M. Metody pro hraní hry 'Liar's Dice' s využítím dynamického programování [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Language of document

cs

Study field

Informační technologie

Comittee

doc. Ing. František Zbořil, Ph.D. (předseda) doc. RNDr. Dana Hliněná, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen)

Date of acceptance

2023-06-15

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Komise shledala, že práce nesplňuje minimální požadavky kladené na rozsah bakalářské práce a dále konstatuje, že práce obsahuje zásadní nedostatky formálního i prezentačního charakteru (např. chybějící citace zdrojů). Z těchto důvodů se komise rozhodla hodnotit práci jako nevyhovující a navrhuje její úplné přepracování.

Result of defence

práce nebyla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení