Syntéza strategií pro stochastické hry s částečným pozorováním

Loading...
Thumbnail Image

Date

Authors

Masopust, Antonín

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Stochastické hry s částečným pozorováním jsou modely sloužící ke zkoumání situací s více agenty, ve kterých jsou dostupné pouze neúplné informace. Tato práce se zaměřuje na řešení jednostranných POSGs (os-POSGs), podtřídu, kde má pouze jeden agent neúplné informace. Je zde představen algoritmus, který je schopný syntetizovat dobré konečně-stavové kontrolery (FSCs) pro os-POSGs. Tento algoritmus je založen na nejmodernějších technikách pro syntézu FSCs u částečně pozorovatelných Markovských rozhodovacích procesů (POMDPs). Navržený algoritmus byl implementován jako součást nástroje PAYNT. Experimentální vyhodnocení ukazuje, že je tento přístup schopný vyřešit netriviální hry během několika sekund pro danou paměť, obzvlášť když je potřebná paměť malá. Dále je předvedeno, jak lze os-POSGs použít jako abstrakci pro řešení jiných obtížných problémů, jako jsou rodiny POMDP nebo intervalové POMDP. Toto je demonstrováno na několika případových studiích.
Partially observable stochastic games (POSGs) are models used to reason about multi-agent settings with imperfect information. This thesis focuses on solving one-sided POSGs (os-POSGs), a subclass where only one agent has imperfect information. We present an algorithm that is able to synthesize good finite-state controllers (FSCs) for os-POSGs. This algorithm is based on state-of-the-art techniques for FSC synthesis in partially observable Markov decision processes (POMDPs). The proposed algorithm was implemented as a part of the PAYNT tool. The experimental evaluation shows that this approach can solve non-trivial games within a few seconds for a fixed memory model, especially when the required memory is small. Furthermore, we showcase how os-POSGs can be utilized as an abstraction for solving other challenging problems, such as families of POMDPs or interval POMDPs. This is demonstrated in several case studies.

Description

Citation

MASOPUST, A. Syntéza strategií pro stochastické hry s částečným pozorováním [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Informační technologie

Comittee

doc. Ing. František Zbořil, CSc. (předseda) Ing. Aleš Smrčka, Ph.D. (člen) Ing. Jan Pluskal, Ph.D. (člen) doc. Ing. Michal Španěl, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen)

Date of acceptance

2025-06-18

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO