Zpětnovazebné učení pro POMDPs s využitím modelů
Loading...
Date
Authors
Smíšková, Lucie
ORCID
Advisor
Referee
Mark
D
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Markovské rozhodovací procesy s částečným pozorováním nám umožňují modelovat systémy obsahující stavovou neurčitost. Jsou užitečné, pokud máme pouze částečné informace o stavech (tak zvaná pozorování). Cílem této práce bylo vyvinout metodu kombinující induktivní syntézu a zpětnovazebné učení k vytvoření co nejlepšího konečně stavového kontroléru. Tato metoda poté byla implementována jako rozšíření nástroje PAYNT.
Partially observable Markov decision processes allow us to model systems containing state uncertainty. They are useful when we have only partial information about the states ( so called observations). The aim of this thesis was to develop a method combining inductive synthesis and reinforcement learning to develop the best possible finite-state controller. This method was then implemented as an extension to the tool PAYNT.
Partially observable Markov decision processes allow us to model systems containing state uncertainty. They are useful when we have only partial information about the states ( so called observations). The aim of this thesis was to develop a method combining inductive synthesis and reinforcement learning to develop the best possible finite-state controller. This method was then implemented as an extension to the tool PAYNT.
Description
Citation
SMÍŠKOVÁ, L. Zpětnovazebné učení pro POMDPs s využitím modelů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
prof. Ing. Adam Herout, Ph.D. (předseda)
prof. Ing. Tomáš Hruška, CSc. (člen)
Ing. Tomáš Milet, Ph.D. (člen)
doc. Ing. Michal Bidlo, Ph.D. (člen)
RNDr. Marek Rychlý, Ph.D. (člen)
Date of acceptance
2024-08-22
Defence
Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm D.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení