Aplikace pro odezírání mluveného slova
| but.committee | doc. Ing. František Zbořil, Ph.D. (předseda) Mgr. Kamil Malinka, Ph.D. (člen) Ing. Miloš Musil, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen) | cs |
| but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D. | cs |
| but.jazyk | slovenština (Slovak) | |
| but.program | Informační technologie | cs |
| but.result | práce byla úspěšně obhájena | cs |
| dc.contributor.advisor | Goldmann, Tomáš | sk |
| dc.contributor.author | Pestun, Matúš | sk |
| dc.contributor.referee | Pleško, Filip | sk |
| dc.date.created | 2025 | cs |
| dc.description.abstract | Cieľom práce bolo navrhnúť systém na rozpoznávanie hovorených slov na základe pohybov pier bez zvukového vstupu a overiť jeho využiteľnosť v reálnej aplikácii. Práca sa zaoberá vizuálnym rozpoznávaním reči, ktoré má potenciál využitia napríklad v asistívnej komunikácii. Navrhnuté riešenie zahŕňa kompletný proces spracovania videí z datasetu LRS2 vrátane detekcie tváre, extrakcie oblasti úst a prípravy dát na trénovanie. Model kombinuje 3D konvolučnú neurónovú sieť, obojsmerné GRU a dekódovanie pomocou CTC a mechanizmu pozornosti. Systém bol nasadený v jednoduchej webovej aplikácii, avšak dosiahnuté výsledky (napr. chybovosť znakov – Character Error Rate – približne 60 %) zatiaľ neumožňujú jeho praktické využitie. Napriek tomu práca predstavuje pevný a funkčný základ pre ďalší výskum. Prínosom je najmä vytvorenie kompletnej architektúry, na ktorej možno ďalej stavať. | sk |
| dc.description.abstract | This thesis aimed to design a system capable of recognising spoken words based solely on lip movements, without relying on audio input. The goal was not only to build such a system but also to test its potential use in a real-world application, such as assistive communication. The solution includes a complete processing pipeline for LRS2 video data, covering face detection, mouth region extraction, and data preparation for model training. The core of the system is a neural network combining 3D convolutions, bidirectional GRUs, and decoding through CTC and attention mechanisms. Although the system was successfully integrated into a simple web application, the achieved performance – characterised by a Character Error Rate of around 60 % – is not yet sufficient for practical use. Still, the work lays a solid foundation for future improvements and provides a complete architecture to build upon. | en |
| dc.description.mark | D | cs |
| dc.identifier.citation | PESTUN, M. Aplikace pro odezírání mluveného slova [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025. | cs |
| dc.identifier.other | 164849 | cs |
| dc.identifier.uri | http://hdl.handle.net/11012/252821 | |
| dc.language.iso | sk | cs |
| dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
| dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
| dc.subject | čítanie z pier | sk |
| dc.subject | analýza pohybu pier | sk |
| dc.subject | strojové učenie | sk |
| dc.subject | počítačové videnie | sk |
| dc.subject | neurónové siete | sk |
| dc.subject | konvolučné neurónové siete | sk |
| dc.subject | rekurentné neurónové siete | sk |
| dc.subject | kaskádový attention-CTC dekóder | sk |
| dc.subject | detekcia oblasti úst | sk |
| dc.subject | LRS2 dataset | sk |
| dc.subject | lip reading | en |
| dc.subject | lip movement analysis | en |
| dc.subject | machine learning | en |
| dc.subject | computer vision | en |
| dc.subject | neural networks | en |
| dc.subject | convolutional neural networks | en |
| dc.subject | recurrent neural networks | en |
| dc.subject | cascaded attention-CTC decoder | en |
| dc.subject | mouth region detection | en |
| dc.subject | LRS2 dataset | en |
| dc.title | Aplikace pro odezírání mluveného slova | sk |
| dc.type | Text | cs |
| dc.type.driver | bachelorThesis | en |
| dc.type.evskp | bakalářská práce | cs |
| dcterms.dateAccepted | 2025-06-16 | cs |
| dcterms.modified | 2025-06-16-15:04:32 | cs |
| eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
| sync.item.dbid | 164849 | en |
| sync.item.dbtype | ZP | en |
| sync.item.insts | 2025.08.26 23:04:08 | en |
| sync.item.modts | 2025.08.26 20:23:41 | en |
| thesis.discipline | Informační technologie | cs |
| thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav inteligentních systémů | cs |
| thesis.level | Bakalářský | cs |
| thesis.name | Bc. | cs |
