Rozpoznávání řeči do textu s částečným dohledem a kritikem založeným na převodu z textu do řeči

Baskar, Murali Karthick

Rozpoznávání řeči do textu s částečným dohledem a kritikem založeným na převodu z textu do řeči

but.committee	doc. Ing. Jiří Jaroš, Ph.D. (předseda) prof. Ing. Mária Bieliková, Ph.D. (člen) doc. Ing. Jiří Mekyska, Ph.D. (člen) doc. Ing. Jindřich Matoušek, Ph.D. (člen) Ing. Jan Trmal, Ph.D. (člen)	cs
but.defence	Student přednesl cíle a výsledky, kterých v rámci řešení disertační práce dosáhl. V rozpravě student odpověděl na otázky komise a oponentů a hostů. Diskuze je zaznamenána na diskuzních lístcích, které jsou přílohou protokolu. Počet diskuzních lístků: 7. Komise se v závěru jednomyslně usnesla, že student splnil podmínky pro udělení akademického titulu doktor. Komise jednomyslně doporučuje, aby studentovi byla udělena cena za výjimečně kvalitní disertační práci. The student presented the goals and results, which he achieved within the solution of the dissertation. The student has competently answered the questions of the committee members and reviewers and guests. The discussion is recorded on the discussion sheets, which are attached to the protocol. Number of discussion sheets: 7. The committee has agreed unanimously that the student has fulfilled requirements for being awarded the academic title Ph.D. The committee recommends awarding the thesis the deans prize.	cs
but.jazyk	angličtina (English)
but.program	Výpočetní technika a informatika	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Burget, Lukáš	en
dc.contributor.author	Baskar, Murali Karthick	en
dc.contributor.referee	Manohar, Vimal	en
dc.contributor.referee	Trmal, Jan	en
dc.date.created	2023	cs
dc.description.abstract	Modely pro automatické rozpoznávání řeči (ASR) vyžadují pro dosažení přijatelné přesnosti velké množství trénovacích dat. Z tohoto důvodu se v poslední době zvýšil zájem o trénování seq2seq modelů bez dohledu a s částečným dohledem. Tato práce vychází z nedávných výsledků, které ukázaly výrazné zlepšení trénování s částečným dohledem pomocí cyklické konzistence a souvisejících technik. Ty využívají trénovací postupy a kritéria schopná pomocí kombinace ASR s modely převodu textu na řeč (TTS) zužitkovat nesouvisející řečová a/nebo textová data. Tato práce nejprve navrhuje nový rámec pro modelování kombinující diferencovatelné end-to-end kritérium ASR->TTS s kritériem TTS->ASR. Tato metoda dokáže využít nesouvisející řečová a textová data a překonat související techniky ve slovní chybovosti (WER). Práce obsahuje rozsáhlou sadu výsledků analyzujících vliv množství dat i vliv podílu řeči a textu na opravách chyb. Výsledky dokládají konzistentní zlepšení na korpusech WSJ a LibriSpeech. Práce se rovněž zabývá omezeními modelu ASR<->TTS v podmínkách mimo doménu trénovacích dat (out-of-domain). Navrhujeme vylepšený model ASR<->TTS (EAT), zahrnující dva klíčové komponenty: 1) směr ASR->TTS je doplněn jazykovým model, který penalizuje hypotézy ASR před jejich vstupem do TTS; a 2) ve směru TTS->ASR je zavedena regularizace trénovaná bez dohledu tak, aby opravovala syntetizovanou řeč před vstupem do modelu ASR. Zkoumáme strategie trénování a účinnost modelu EAT a porovnáme jej s přístupy umělého zvyšování množství (augmentace) dat. Výsledky ukazují, že model EAT snižuje rozdíl v úspěšnosti mezi trénováním bez dohledu a trénováním s částečným dohledem absolutně o 2,6% WER na LibriSpeech datech a o 2,7% WER na BABEL datech.	en
dc.description.abstract	Sequence-to-sequence automatic speech recognition (ASR) models require large quantities of training data to attain good performance. For this reason, unsupervised and semi-supervised training in seq2seq models have recently witnessed a surge in interest. This work builds upon recent results showing notable improvements in semi-supervised training using cycle-consistency and related techniques. Such techniques derive training procedures and losses able to leverage unpaired speech and/or text data by combining ASR with text-to-speech (TTS) models. This thesis first proposes a new semi-supervised modelling framework combining an end-to-end differentiable ASR->TTS loss with TTS->ASR loss. The method is able to leverage unpaired speech and text data to outperform recently proposed related techniques in terms of word error rate (WER). We provide extensive results analysing the impact of data quantity as well as the contribution of speech and text modalities in recovering errors and show consistent gains across WSJ and LibriSpeech corpora. The thesis also discusses the limitations of the ASR<->TTS model in out-of-domain data conditions. We propose an enhanced ASR<->TTS (EAT) model incorporating two main features: 1) the ASR->TTS pipeline is equipped with a language model reward to penalize the ASR hypotheses before forwarding them to TTS; and 2) speech regularizer trained in unsupervised fashion is introduced in TTS->ASR to correct the synthesized speech before sending it to the ASR model. Training strategies and the effectiveness of the EAT model are explored and compared with augmentation approaches. The results show that EAT reduces the performance gap between supervised and semi-supervised training by absolute WER improvement of 2.6% and 2.7% on LibriSpeech and BABEL respectively.	cs
dc.description.mark	P	cs
dc.identifier.citation	BASKAR, M. Rozpoznávání řeči do textu s částečným dohledem a kritikem založeným na převodu z textu do řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.	cs
dc.identifier.other	158315	cs
dc.identifier.uri	http://hdl.handle.net/11012/244313
dc.language.iso	en	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	Automatické rozpoznávání řeči	en
dc.subject	převod textu na řeč	en
dc.subject	trénování s částečným dohledem	en
dc.subject	cyklická konzistence	en
dc.subject	nesouvisející řeč a textová data	en
dc.subject	regularizace.	en
dc.subject	Automatic speech recognition	cs
dc.subject	text to speech	cs
dc.subject	semi-supervised training	cs
dc.subject	cycle-consistency	cs
dc.subject	unpaired speech and text data	cs
dc.subject	regularization.	cs
dc.title	Rozpoznávání řeči do textu s částečným dohledem a kritikem založeným na převodu z textu do řeči	en
dc.title.alternative	Semi-Supervised Speech-to-Text Recognition with Text-to-Speech Critic	cs
dc.type	Text	cs
dc.type.driver	doctoralThesis	en
dc.type.evskp	dizertační práce	cs
dcterms.dateAccepted	2023-11-15	cs
dcterms.modified	2023-11-15-15:35:52	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	158315	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.27 12:20:46	en
sync.item.modts	2025.01.17 13:20:02	en
thesis.discipline	Výpočetní technika a informatika	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Doktorský	cs
thesis.name	Ph.D.	cs

Files

Original bundle

Now showing 1 - 5 of 5

Name:: final-thesis.pdf
Size:: 3.77 MB
Format:: Adobe Portable Document Format
Description:: file final-thesis.pdf

Download

Name:: Posudek-Vedouci prace-1044_s1.pdf
Size:: 58.05 KB
Format:: Adobe Portable Document Format
Description:: file Posudek-Vedouci prace-1044_s1.pdf

Download

Name:: Posudek-Oponent prace-1044_o1.pdf
Size:: 104.3 KB
Format:: Adobe Portable Document Format
Description:: file Posudek-Oponent prace-1044_o1.pdf

Download

Name:: Posudek-Oponent prace-1044_o2.pdf
Size:: 284.3 KB
Format:: Adobe Portable Document Format
Description:: file Posudek-Oponent prace-1044_o2.pdf

Download

Name:: review_158315.html
Size:: 1.73 KB
Format:: Hypertext Markup Language
Description:: file review_158315.html

Download

Collections

2023