Hraní nedeterministických her s učením

Loading...
Thumbnail Image

Date

Authors

Bukovský, Marek

Mark

C

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Práce se věnuje studiu a implementaci metod použitých pro učení z průběhu hraní. Zvolenou hrou pro tuhle práci jsou Vrhcáby. Algoritmus použitý pro učení neuronové sítě se nazývá učení z časového rozdílu s použitím stop vhodnosti. Tento algoritmus je známý i pod jménem TD(lambda). V teoretické části práce jsou popsány algoritmy pro hraní her bez učení, úvod do posilovaného učení, učení z časových rozdílů a úvod do umělých úvod neuronových sítí. Praktická část se zabývá aplikováním kombinace neuronových sítí a TD(lambda) algoritmů.
The thesis is dedicated to the study and implementation of methods used for learning from the course of playing. The chosen game for this thesis is Backgammon. The algorithm used for training neural networks is called the temporal difference learning with use of eligible traces. This algorithm is also known as TD(lambda). The theoretical part describes algorithms for playing games without learning, introduction to reinforcement learning, temporal difference learning and introduction to artificial neural networks. The practical part deals with application of combination of neural networks and TD(lambda) algorithms.

Description

Citation

BUKOVSKÝ, M. Hraní nedeterministických her s učením [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2011.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Inteligentní systémy

Comittee

prof. RNDr. Milan Češka, CSc. (předseda) doc. Ing. Vladimír Janoušek, Ph.D. (místopředseda) Ing. Ivana Burgetová, Ph.D. (člen) Doc. Ing. Zdeněk Havlice, CSc. (člen) doc. Ing. Jan Kořenek, Ph.D. (člen) Dr. Ing. Petr Peringer (člen)

Date of acceptance

2011-06-21

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO