Posilované učení pro pohyb robota
but.committee | doc. Ing. Martin Čadík, Ph.D. (předseda) doc. Ing. Radek Burget, Ph.D. (místopředseda) Ing. David Bařina, Ph.D. (člen) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Vojtěch Mrázek, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D. Otázky u obhajoby: 1) V práci hodnotíte úspěšnost (ve všech grafech) hodnotou "Reward". ta ale není v práci vlastně vysvětlena. Co je tedy onou hodnotou "Reward" uváděnou v grafech, jak se měří? 2) V závěru práce uvádíte, že robot Atlas byl při trénování úspěšný. Jak tuto "úspěšnost" může vnímat čtenář práce. Čím se vlastně projevuje, jak to pozná? 3) Má hodnota "Reward" nějaké teoretické maximum? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Hradiš, Michal | cs |
dc.contributor.author | Hás, David | cs |
dc.contributor.referee | Zemčík, Pavel | cs |
dc.date.created | 2022 | cs |
dc.description.abstract | Tato práce se zabývá využitím posilovaného učení pro pohyb robota v simulovaném fyzikálním prostředí. Pro posilované učení se jedná o náročné úlohy, kde agenti čelí několika výzvám. Jednou z nich je spojitý prostor akcí, jelikož agent obvykle ovlivňuje prostředí aplikací síly na jednotlivé klouby. Druhým problémem je, že části robota se často vzájemně ovlivňují složitým způsobem a navíc jsou ovlivněny gravitací, setrvačností a dalšími fyzikálními efekty. Z těchto a dalších důvodů nejsou pro tyto úlohy jednoduché algoritmy posilovaného učení vhodné. Jedním z relativně nových řešení je algoritmus Soft Actor-Critic (SAC), který se objevil současně s podobně performním TD3, a oba překonávají starší DDPG. Agent SAC je odměňován za více náhodné chování, jeho cílem je tedy kromě maximalizace odměny také maximalizace entropie. Tato práce ukazuje použití tohoto algoritmu při učení agenta na úloze robotického pohybu. Je popsána implementace s použitím frameworku PyTorch a úspěšnost algoritmu je vyhodnocena na úlohách z prostředí PyBullet a OpenAI Gym. Algoritmus je na závěr použit na vlastní upravené prostředí s robotem Atlas. | cs |
dc.description.abstract | This paper is concerned with reinforcement learning for robotic movement in simulated physical environment. These are difficult problems for reinforcement learning, where agents need to face several challenges. One of them is continuous action space, as agent usually interacts with the environment by applying force on joints of the robot. Another problem is that parts of the robot often affect each other in complex ways and are also affected by gravity, inertia and other physical effects. For these and more reasons simple reinforcement learning algorithms are not suitable for these tasks. One of recent solutions is the Soft Actor-Critic algorithm (SAC), which emerged at the same time as similarly performing TD3, and both outperforming the older DDPG. SAC agents are rewarded for behaving more randomly, thus their goal is to maximize entropy along with maximizing the reward. This paper describes usage of this algorithm for teaching agents robotic movement. It describes implementation of the algorithms using the PyTorch machine learning framework and evaluates it on environments from OpenAI Gym platform using the PyBullet physics engine. Lastly, the algorithm is applied on custom environment with robot Atlas. | en |
dc.description.mark | D | cs |
dc.identifier.citation | HÁS, D. Posilované učení pro pohyb robota [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022. | cs |
dc.identifier.other | 145078 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/207222 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | strojové učení | cs |
dc.subject | neronové sítě | cs |
dc.subject | posilované učení | cs |
dc.subject | hluboké učení | cs |
dc.subject | soft actor-critic | cs |
dc.subject | SAC | cs |
dc.subject | OpenAI Gym | cs |
dc.subject | machine learning | en |
dc.subject | neural networks | en |
dc.subject | reinforcement learning | en |
dc.subject | deep learning | en |
dc.subject | soft actor-critic | en |
dc.subject | SAC | en |
dc.subject | OpenAI Gym | en |
dc.title | Posilované učení pro pohyb robota | cs |
dc.title.alternative | Reinforcement Learning for Mobile Robots | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2022-06-14 | cs |
dcterms.modified | 2022-06-20-10:23:00 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 145078 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 19:39:32 | en |
sync.item.modts | 2025.01.17 14:18:33 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.28 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-23906_v.pdf
- Size:
- 85.75 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-23906_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-23906_o.pdf
- Size:
- 87.45 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-23906_o.pdf
Loading...
- Name:
- review_145078.html
- Size:
- 1.43 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_145078.html