Vylepšení syntézy kontrolérů pro POMDP s využitím efektivních metod pro krátkodobé plánování.
Loading...
Date
Authors
Skyva, Pavel
Advisor
Referee
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato práce se zabývá syntézou konečně stavových kontrolérů (FSC) pro částečně pozorovatelné Markovovy rozhodovací procesy (POMDP). Navazuje na dva přístupy: induktivní syntézu, která symbolicky prohledává rodiny kontrolérů (realizovanou nástrojem PAYNT), a krátkodobé plánování založené na aproximaci belief prostoru (realizované nástrojem SARSOP). PAYNT poskytuje záruky pro dlouhodobé cíle, potýká se s problémem škálovatelnosti. SARSOP efektivně počítá aproximace optimálních strategií, má ale tendenci upřednostňovat krátkodobé odměny. Práce navrhuje metodu pro získání plánovacích informací ze SARSOPu ve formě alfa-vektorů a jejich integraci do procesu syntézy v PAYNTu. Experimenty potvrzují, že navržený přístup vede ke kompaktním a kvalitnějším kontrolérům ve srovnání s původními metodami.
This thesis addresses the problem of synthesising finite-state controllers (FSCs) for partially observable Markov decision processes (POMDPs). It builds upon two paradigms: inductive synthesis, which symbolically explores families of controllers as implemented in PAYNT, and short-term planning based on belief space approximation, realised in SARSOP. While PAYNT provides guarantees for long-term objectives, it suffers from scalability limitations. In contrast, SARSOP efficiently computes approximately optimal policies for discounted specifications but tends to favour short-term rewards. This work proposes a method to extract planning insights from SARSOP in the form of alpha-vectors and integrate them into PAYNT’s synthesis process. Experiments confirm that the proposed method yields compact controllers and better optimality compared to standalone approaches.
This thesis addresses the problem of synthesising finite-state controllers (FSCs) for partially observable Markov decision processes (POMDPs). It builds upon two paradigms: inductive synthesis, which symbolically explores families of controllers as implemented in PAYNT, and short-term planning based on belief space approximation, realised in SARSOP. While PAYNT provides guarantees for long-term objectives, it suffers from scalability limitations. In contrast, SARSOP efficiently computes approximately optimal policies for discounted specifications but tends to favour short-term rewards. This work proposes a method to extract planning insights from SARSOP in the form of alpha-vectors and integrate them into PAYNT’s synthesis process. Experiments confirm that the proposed method yields compact controllers and better optimality compared to standalone approaches.
Description
Citation
SKYVA, P. Vylepšení syntézy kontrolérů pro POMDP s využitím efektivních metod pro krátkodobé plánování. [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
doc. RNDr. Milan Češka, Ph.D. (předseda)
Ing. Radek Kočí, Ph.D. (člen)
Ing. Šárka Květoňová, Ph.D. (člen)
Ing. David Bařina, Ph.D. (člen)
Ing. Marta Jaroš, Ph.D. (člen)
Date of acceptance
2025-06-17
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
Result of defence
práce byla úspěšně obhájena
