Využití zpětnovazebné učení a induktivní syntézy pro konstukci robustních kontroléru v POMDPs

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Mgr. Lukáš Holík, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) prof. Ing. Lukáš Sekanina, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorČeška, Milanen
dc.contributor.authorHudák, Daviden
dc.contributor.refereeHolík, Lukášen
dc.date.created2024cs
dc.description.abstractJednou ze současných výzev při sekvenční rozhodováním je práce s neurčitostí, která je způsobena nepřesnými senzory či neúplnou informací o prostředích, ve kterých bychom chtěli dělat rozhodnutí. Tato neurčitost je formálně popsána takzvanými částečně pozorovatelnými Markovskými rozhodovacími procesy (POMDP), které oproti Markovským rozhodovacím procesům (MDP) nahrazují informaci o konkrétním stavu nepřesným pozorováním. Pro rozhodování v takových prostředích je nutno nějakým způsobem odhadovat současný stav a obecně tvorba optimálních politik v takových prostředích není rozhodnutelná. K vyrovnání se s touto výzvou existují dva zcela odlišné přístupy, kdy lze k problému přistupovat úplnými formálními metodami, a to buď s pomocí výpočtu beliefů či syntézou konečně stavových kontrolérů, nebo metodami založenými na nepřesné aproximaci současného stavu, reprezentované především hlubokým zpětnovazebným učením. Zatímco formální přístupy jsou schopné dělat verifikovatelná a robustní rozhodnutí pro malá prostředí, tak zpětnovazebné učení je schopné škálovat na reálné problémy. Tato práce se pak soustředí na spojení těchto dvou odlišných přístupů, kdy navrhuje různé metody jak pro interpretaci výsledku, tak pro vzájemné předávání nápověd. Experimenty v této práci ukazují, že z této symbiózy mohou těžit oba přístupy, ale také že zvolený přístup ke trénování agentů už sám o sobě řádově překonává současné systémy pro trénování agentů na podobných úlohách.en
dc.description.abstractA significant challenge in sequential decision-making involves dealing with uncertainty, which arises from inaccurate sensors or only a partial knowledge of the agent's environment. This uncertainty is formally described through the framework of partially observable Markov decision processes (POMDPs). Unlike Markov decision processes (MDP), POMDPs only provide limited information about the exact state through imprecise observations. Decision-making in such settings requires estimating the current state, and generally, achieving optimal decisions is not tractable. There are two primary strategies to address this issue. The first strategy involves formal methods that concentrate on computing belief MDPs or synthesizing finite state controllers, known for their robustness and verifiability. However, these methods often struggle with scalability and require to know the underlying model. Conversely, informal methods like reinforcement learning offer scalability but lack verifiability. This thesis aims to merge these approaches by developing and implementing various techniques for interpreting and integrating the results and communication strategies between both methods. In this thesis, our experiments show that this symbiosis can improve both approaches, and we also show that our implementation overcomes other RL implementations for similar tasks.cs
dc.description.markAcs
dc.identifier.citationHUDÁK, D. Využití zpětnovazebné učení a induktivní syntézy pro konstukci robustních kontroléru v POMDPs [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.cs
dc.identifier.other157079cs
dc.identifier.urihttp://hdl.handle.net/11012/248927
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectPosilované učeníen
dc.subjectPAYNTen
dc.subjectPOMDPen
dc.subjectinterpretovatelnosten
dc.subjectsyntézaen
dc.subjectPPOen
dc.subjectsekvenční rozhodovací problémyen
dc.subjectkonečně stavové kontroléryen
dc.subjectFSCen
dc.subjectDQNen
dc.subjectDDQNen
dc.subjectReinforcement learningcs
dc.subjectPAYNTcs
dc.subjectPOMDPcs
dc.subjectinterpretabilitycs
dc.subjectsynthesiscs
dc.subjectPPOcs
dc.subjectsequential decision problemscs
dc.subjectfinite state controllerscs
dc.subjectFSCcs
dc.subjectDQNcs
dc.subjectDDQNcs
dc.titleVyužití zpětnovazebné učení a induktivní syntézy pro konstukci robustních kontroléru v POMDPsen
dc.title.alternativeUsing Reinforcement learning and inductive synthesis for designing robust controllers in POMDPscs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2024-06-18cs
dcterms.modified2024-06-18-11:39:56cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid157079en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 15:38:24en
sync.item.modts2025.01.15 19:25:00en
thesis.disciplineStrojové učenícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav inteligentních systémůcs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.54 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_157079.html
Size:
10.57 KB
Format:
Hypertext Markup Language
Description:
file review_157079.html
Collections