Aplikace pro odezírání mluveného slova

but.committeedoc. Ing. František Zbořil, Ph.D. (předseda) Mgr. Kamil Malinka, Ph.D. (člen) Ing. Miloš Musil, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.cs
but.jazykslovenština (Slovak)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorGoldmann, Tomášsk
dc.contributor.authorPestun, Matúšsk
dc.contributor.refereePleško, Filipsk
dc.date.created2025cs
dc.description.abstractCieľom práce bolo navrhnúť systém na rozpoznávanie hovorených slov na základe pohybov pier bez zvukového vstupu a overiť jeho využiteľnosť v reálnej aplikácii. Práca sa zaoberá vizuálnym rozpoznávaním reči, ktoré má potenciál využitia napríklad v asistívnej komunikácii. Navrhnuté riešenie zahŕňa kompletný proces spracovania videí z datasetu LRS2 vrátane detekcie tváre, extrakcie oblasti úst a prípravy dát na trénovanie. Model kombinuje 3D konvolučnú neurónovú sieť, obojsmerné GRU a dekódovanie pomocou CTC a mechanizmu pozornosti. Systém bol nasadený v jednoduchej webovej aplikácii, avšak dosiahnuté výsledky (napr. chybovosť znakov – Character Error Rate – približne 60 %) zatiaľ neumožňujú jeho praktické využitie. Napriek tomu práca predstavuje pevný a funkčný základ pre ďalší výskum. Prínosom je najmä vytvorenie kompletnej architektúry, na ktorej možno ďalej stavať.sk
dc.description.abstractThis thesis aimed to design a system capable of recognising spoken words based solely on lip movements, without relying on audio input. The goal was not only to build such a system but also to test its potential use in a real-world application, such as assistive communication. The solution includes a complete processing pipeline for LRS2 video data, covering face detection, mouth region extraction, and data preparation for model training. The core of the system is a neural network combining 3D convolutions, bidirectional GRUs, and decoding through CTC and attention mechanisms. Although the system was successfully integrated into a simple web application, the achieved performance – characterised by a Character Error Rate of around 60 % – is not yet sufficient for practical use. Still, the work lays a solid foundation for future improvements and provides a complete architecture to build upon.en
dc.description.markDcs
dc.identifier.citationPESTUN, M. Aplikace pro odezírání mluveného slova [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other164849cs
dc.identifier.urihttp://hdl.handle.net/11012/252821
dc.language.isoskcs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectčítanie z piersk
dc.subjectanalýza pohybu piersk
dc.subjectstrojové učeniesk
dc.subjectpočítačové videniesk
dc.subjectneurónové sietesk
dc.subjectkonvolučné neurónové sietesk
dc.subjectrekurentné neurónové sietesk
dc.subjectkaskádový attention-CTC dekódersk
dc.subjectdetekcia oblasti ústsk
dc.subjectLRS2 datasetsk
dc.subjectlip readingen
dc.subjectlip movement analysisen
dc.subjectmachine learningen
dc.subjectcomputer visionen
dc.subjectneural networksen
dc.subjectconvolutional neural networksen
dc.subjectrecurrent neural networksen
dc.subjectcascaded attention-CTC decoderen
dc.subjectmouth region detectionen
dc.subjectLRS2 dataseten
dc.titleAplikace pro odezírání mluveného slovask
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2025-06-16cs
dcterms.modified2025-06-16-15:04:32cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid164849en
sync.item.dbtypeZPen
sync.item.insts2025.08.26 23:04:08en
sync.item.modts2025.08.26 20:23:41en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav inteligentních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
9.8 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_164849.html
Size:
9.46 KB
Format:
Hypertext Markup Language
Description:
file review_164849.html

Collections