End-to-end speech recognition for low-resource languages

Sokolovskii, Vladislav

End-to-end speech recognition for low-resource languages

but.committee	prof. Ing. Adam Herout, Ph.D. (předseda) doc. Ing. František Zbořil, Ph.D. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Zdeněk Materna, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Where do you see the largest potential to improve end-to-end speech transcription system for low resources languages - from transliteration/romanization, self-supervised techniques like Wave2Vec2/HuBERT/WavLM, training data augmentation, of from something else? The RNN Transducer architecture was used. What improvement do you expect from two pass system with attention-based architecture in the second pass? How would you extend the work into a scientific publication?	cs
but.jazyk	angličtina (English)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Karafiát, Martin	en
dc.contributor.author	Sokolovskii, Vladislav	en
dc.contributor.referee	Schwarz, Petr	en
dc.date.created	2022	cs
dc.description.abstract	Oblast automatického rozpoznávání řeči začala přijímat end-to-end řešení neuronové sítě pro vytváření rozpoznávačů řeči. Povaha datového hladu těchto typů systémů však umožňuje vytvářet rozpoznávače pouze pro jazyky s velkými zdroji, jako je angličtina, čínština nebo španělština. Ve scénářích s nízkými zdroji je třeba vyvinout některá řešení, která zmírní problém nedostatku dat. Jednou z nejúčinnějších technik je doladění předtrénovaného modelu. Problém se stávajícími přístupy ladění spočívá v tom, že sada tokenů cílového a zdrojového jazyka se obvykle liší. To je důvod, proč předchozí přístupy k učení vícejazyčného přenosu vyžadovaly změnu výstupní vrstvy nebo smíchání tokenů z různých jazyků ve výstupní vrstvě, případně použití univerzální sady tokenů anebo samostatné výstupní vrstvy pro každý jazyk. To je nežádoucí, jelikož sdílení napříč jazyky je v tomto případě latentní a neovladatelné ve výstupním prostoru, když jsou grafémy specifické pro daný jazyk disjunktní. Proto tato práce navrhuje mapování tokenů do společné sady před začátkem předtréninku. Stávající řešení spočívá v transliteraci zdrojového jazyka do cílového, novým přístupem je romanizace, kde je sada tokenů cílového jazyka romanizována tak, aby odpovídala anglické abecedě. Následně lze diakritiku z romanizovaných hypotéz obnovit pomocí dalšího modelu obnovy. To má výhodu ve zvýšení sdílení v prostoru výstupního grafému.	en
dc.description.abstract	The automatic speech recognition area has started to adopt end-to-end neural network solutions for creating speech recognizers. However, the data hunger nature of these types of systems allows for the creation of recognizers only for high-resource languages, such as English, Chinese or Spanish. In low-resource scenarios, some solutions which alleviate the data scarcity problem have to be developed. One of the most effective techniques for this is fine-tuning a pre-trained model. The problem with the existing approaches of fine-tuning is that the token set of target and source languages does usually differ. That is why previous multi-lingual transfer learning approaches required the output layer to be changed, or mixed tokens from different languages in the output layer, or use universal token sets, or have separate output layers per language. This is undesirable because the sharing across languages in this case latent and not controllable in the output space when the language-specific graphemes are disjoint. Therefore this work proposes to map the tokens to the common set before the beginning of the pre-training. The existing solution was a transliteration of the source language to the target one, the novel approach is romanization where the token set of the target language is romanized to match the English alphabet. Subsequently, the diacritics from the romanized hypotheses can be restored using an additional restoration model. This has the advantage of increasing sharing in the output grapheme space.	cs
dc.description.mark	A	cs
dc.identifier.citation	SOKOLOVSKII, V. End-to-end speech recognition for low-resource languages [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.	cs
dc.identifier.other	146360	cs
dc.identifier.uri	http://hdl.handle.net/11012/208275
dc.language.iso	en	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	ASR	en
dc.subject	low-resource	en
dc.subject	transliteration	en
dc.subject	romanization	en
dc.subject	model	en
dc.subject	data	en
dc.subject	trénování	en
dc.subject	transfer learning	en
dc.subject	řeč	en
dc.subject	end-to-end	en
dc.subject	augmentation	en
dc.subject	fine-tuning	en
dc.subject	ASR	cs
dc.subject	low-resource	cs
dc.subject	transliteration	cs
dc.subject	romanization	cs
dc.subject	model	cs
dc.subject	data	cs
dc.subject	training	cs
dc.subject	transfer learning	cs
dc.subject	speech	cs
dc.subject	end-to-end	cs
dc.subject	augmentation	cs
dc.subject	fine-tuning	cs
dc.title	End-to-end speech recognition for low-resource languages	en
dc.title.alternative	End-to-End Speech Recognition for Low-Resource Languages	cs
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2022-08-22	cs
dcterms.modified	2023-01-03-13:07:01	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	146360	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.18 19:44:56	en
sync.item.modts	2025.01.17 10:17:19	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Files

Original bundle

Now showing 1 - 4 of 4

Name:: final-thesis.pdf
Size:: 1.48 MB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: Posudek-Vedouci prace-25174_v.pdf
Size:: 85.52 KB
Format:: Adobe Portable Document Format
Description:: Posudek-Vedouci prace-25174_v.pdf

Download

Name:: Posudek-Oponent prace-25174_o.pdf
Size:: 88.3 KB
Format:: Adobe Portable Document Format
Description:: Posudek-Oponent prace-25174_o.pdf

Download

Name:: review_146360.html
Size:: 1.45 KB
Format:: Hypertext Markup Language
Description:: file review_146360.html

Download

Collections

2022