Aplikace pro odezírání mluveného slova

Loading...
Thumbnail Image

Date

Authors

Pestun, Matúš

Mark

D

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Cieľom práce bolo navrhnúť systém na rozpoznávanie hovorených slov na základe pohybov pier bez zvukového vstupu a overiť jeho využiteľnosť v reálnej aplikácii. Práca sa zaoberá vizuálnym rozpoznávaním reči, ktoré má potenciál využitia napríklad v asistívnej komunikácii. Navrhnuté riešenie zahŕňa kompletný proces spracovania videí z datasetu LRS2 vrátane detekcie tváre, extrakcie oblasti úst a prípravy dát na trénovanie. Model kombinuje 3D konvolučnú neurónovú sieť, obojsmerné GRU a dekódovanie pomocou CTC a mechanizmu pozornosti. Systém bol nasadený v jednoduchej webovej aplikácii, avšak dosiahnuté výsledky (napr. chybovosť znakov – Character Error Rate – približne 60 %) zatiaľ neumožňujú jeho praktické využitie. Napriek tomu práca predstavuje pevný a funkčný základ pre ďalší výskum. Prínosom je najmä vytvorenie kompletnej architektúry, na ktorej možno ďalej stavať.
This thesis aimed to design a system capable of recognising spoken words based solely on lip movements, without relying on audio input. The goal was not only to build such a system but also to test its potential use in a real-world application, such as assistive communication. The solution includes a complete processing pipeline for LRS2 video data, covering face detection, mouth region extraction, and data preparation for model training. The core of the system is a neural network combining 3D convolutions, bidirectional GRUs, and decoding through CTC and attention mechanisms. Although the system was successfully integrated into a simple web application, the achieved performance – characterised by a Character Error Rate of around 60 % – is not yet sufficient for practical use. Still, the work lays a solid foundation for future improvements and provides a complete architecture to build upon.

Description

Citation

PESTUN, M. Aplikace pro odezírání mluveného slova [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

sk

Study field

Informační technologie

Comittee

doc. Ing. František Zbořil, Ph.D. (předseda) Mgr. Kamil Malinka, Ph.D. (člen) Ing. Miloš Musil, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen)

Date of acceptance

2025-06-16

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO