Multi-modální přepis textu

Loading...
Thumbnail Image
Date
ORCID
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Cieľom tejto práce je popísať a vytvoriť metódu pre korekciu výstupov rozpoznávača textu pomocou rozpoznávača reči. Práca popisuje prehľad súčasných metód pre rozpoznávanie textu a reči pomocou neurónových sietí. Popisuje tiež existujúce metódy prepájania výstupov dvoch modalít. V rámci práce je navrhnutých a implementovaných niekoľko prístupov pre korekciu rozpoznávačov, ktoré sú založené na algoritmoch, alebo neurónových sieťach. Ako najlepší prístup sa ukázal algoritmus založený na princípe prehľadávania výstupov rozpoznávačov zarovnaných pomocou levenshtainového zarovnania. Algoritmus prehľadáva výstupy v prípade že neistota znaku rozpoznávača textu je menšia ako predom zvolená hranica. V rámci práce bol ku textovým prepisom vytvorený anotačný server, pomocou ktorého sa robil zber nahrávok pre vyhodnotenie experimentov.
The aim of this thesis is to describe and create a method for correcting text recognizer outputs using speech recognition. The thesis presents an overview of current methods for text and speech recognition using neural networks. It also presents a few existing methods of connecting the outputs of two modalities. Within the thesis, several approaches for the correction of recognizers, which are based on algorithms or neural networks, are designed and implemented. An algorithm based on the principle of searching the outputs of recognizers using levenshtain alignment was proven to be the best approach. It scans the outputs, if the uncertainty of the text recognizer character is less than the pre-selected limit. As part of the work, an annotation server was created for the text transcripts, which was used to collect recordings for the evaluation of experiments.
Description
Citation
KABÁČ, M. Multi-modální přepis textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Strojové učení
Comittee
prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. František Zbořil, Ph.D. (místopředseda) Ing. Michal Hradiš, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Ondřej Kanich, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen)
Date of acceptance
2022-06-17
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Všechny algoritmy vedly ke zhoršení výsledků oproti základnímu rozpoznávači textu. Výjimkou byl algoritmus 4. Jak si to vysvětlujete? Jak byste na základě výsledků navrhl nějaký "algoritmus 5", který by mohl být úspěšnější? Vaše neuronová síť ve srovnání s ručně navrženým algoritmem 4 výrazně propadla. V oboru, v němž se pohybujete, je zvykem, že neuronové sítě dosahují lepší úspěšnosti než ručně navržené algoritmy, protože se mohou učit z dat a jejich učení je hluboké. Čím si vysvětlujete tento rozpor? Jak dlouhé jsou získané nahrávky ve Vaší datové sadě?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO