Rozhodovací stromy pro rodiny Markovských rozhodovacích procesů
Loading...
Date
Authors
Dokoupil, Ladislav
ORCID
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Markovské rozhodovací procesy (MDP) poskytují základní rámec pro sekvenční rozhodování v podmínkách nejistoty. Praktické systémy však často zahrnují strukturální variace, které nejlépe modelují rodiny MDP (f-MDP). Výzvou je syntéza kompaktních a interpretovatelných kontrolerů pokrývajících celou rodinu, jelikož existující přístupy mohou být příliš konzervativní a vést k rozsáhlým, obtížně interpretovatelným kontrolerům. Tato práce představuje nové techniky k řešení těchto problémů. Navrhujeme dva klíčové, ortogonální přínosy: (1) heuristický přístup pro generování minimálních kontrolerů z původních kontrolerů a (2) novou transformaci, která redukuje problém rodiny MDP na problém klasického MDP pomocí herní abstrakce, jež modeluje nejhorší možné systémové variace. Tato transformace umožňuje syntetizovat alternativní kontrolery s využitím stávajících nástrojů pro syntézu, a to při zachování korektnosti. Dále zavádíme sjednocenou reprezentaci pomocí rozhodovacích stromů, zahrnující strom mapování kandidátů a sjednocený strom kontrolerů. Tato struktura poskytuje globálně kompaktní a interpretovatelné řešení pro celou f-MDP, přičemž minimalizuje redundanci oproti správě samostatných, často tabulárních kontrolerů. Naše metody, implementované jako rozšíření nástroje PAYNT, experimentálně prokazují výrazné zmenšení velikosti kontrolerů a zlepšení jejich interpretovatelnosti, často s přijatelným kompromisem v čase syntézy.
Markov Decision Processes (MDPs) provide a fundamental framework for sequential decision making under uncertainty. However, practical systems often involve structural variations, best modeled by families of MDPs (f-MDPs). The challenge lies in synthesizing compact and interpretable policies covering the entire family, as existing approaches can be overly conservative, yielding large, difficult-to-interpret policies. This thesis presents novel techniques to address these issues. We propose two key orthogonal contributions: (1) a heuristic-based pruning approach to generate minimal controllers from the initial policies, and (2) a novel transformation that reduces family to an MDP problem, by leveraging a game abstraction to model worst-case system variations. Such transformation allows us to synthesize alternative policies using existing synthesis tools, while maintaining correctness. We further introduce a unified decision tree representation, comprising a candidate mapping tree and a unified policy tree. This structure provides a globally compact and interpretable solution for the entire f-MDP, minimizing redundancy compared to managing separate, often tabular, controllers. Implemented as an extension to the PAYNT tool, our methods are experimentally shown to substantially reduce controller size and improve interpretability, often with an acceptable trade-off in synthesis time.
Markov Decision Processes (MDPs) provide a fundamental framework for sequential decision making under uncertainty. However, practical systems often involve structural variations, best modeled by families of MDPs (f-MDPs). The challenge lies in synthesizing compact and interpretable policies covering the entire family, as existing approaches can be overly conservative, yielding large, difficult-to-interpret policies. This thesis presents novel techniques to address these issues. We propose two key orthogonal contributions: (1) a heuristic-based pruning approach to generate minimal controllers from the initial policies, and (2) a novel transformation that reduces family to an MDP problem, by leveraging a game abstraction to model worst-case system variations. Such transformation allows us to synthesize alternative policies using existing synthesis tools, while maintaining correctness. We further introduce a unified decision tree representation, comprising a candidate mapping tree and a unified policy tree. This structure provides a globally compact and interpretable solution for the entire f-MDP, minimizing redundancy compared to managing separate, often tabular, controllers. Implemented as an extension to the PAYNT tool, our methods are experimentally shown to substantially reduce controller size and improve interpretability, often with an acceptable trade-off in synthesis time.
Description
Keywords
Markovovy rozhodovací procesy, Rodiny MDP, Rozhodovací stromy, Kompaktní kontrolery, Interpretovatelné kontrolery, Optimalizace kontrolerů, Stochastické hry, Markov Decision Processes, Families of MDPs, Decision Trees, Compact Controllers, Interpretable Controllers, Policy Optimization, Stochastic Games
Citation
DOKOUPIL, L. Rozhodovací stromy pro rodiny Markovských rozhodovacích procesů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Matematické metody
Comittee
doc. Mgr. Adam Rogalewicz, Ph.D. (předseda)
doc. RNDr. Pavel Smrž, Ph.D. (člen)
doc. Ing. František Zbořil, CSc. (člen)
Dr. Ing. Petr Peringer (člen)
Ing. Aleš Smrčka, Ph.D. (člen)
Ing. Ondřej Lengál, Ph.D. (člen)
Date of acceptance
2025-06-26
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení