End-to-end speech recognition for low-resource languages

but.committeeprof. Ing. Adam Herout, Ph.D. (předseda) doc. Ing. František Zbořil, Ph.D. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Zdeněk Materna, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Where do you see the largest potential to improve end-to-end speech transcription system for low resources languages - from transliteration/romanization, self-supervised techniques like Wave2Vec2/HuBERT/WavLM, training data augmentation, of from something else? The RNN Transducer architecture was used. What improvement do you expect from two pass system with attention-based architecture in the second pass? How would you extend the work into a scientific publication?cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorKarafiát, Martinen
dc.contributor.authorSokolovskii, Vladislaven
dc.contributor.refereeSchwarz, Petren
dc.date.created2022cs
dc.description.abstractOblast automatického rozpoznávání řeči začala přijímat end-to-end řešení neuronové sítě pro vytváření rozpoznávačů řeči. Povaha datového hladu těchto typů systémů však umožňuje vytvářet rozpoznávače pouze pro jazyky s velkými zdroji, jako je angličtina, čínština nebo španělština. Ve scénářích s nízkými zdroji je třeba vyvinout některá řešení, která zmírní problém nedostatku dat. Jednou z nejúčinnějších technik je doladění předtrénovaného modelu. Problém se stávajícími přístupy ladění spočívá v tom, že sada tokenů cílového a zdrojového jazyka se obvykle liší. To je důvod, proč předchozí přístupy k učení vícejazyčného přenosu vyžadovaly změnu výstupní vrstvy nebo smíchání tokenů z různých jazyků ve výstupní vrstvě, případně použití univerzální sady tokenů anebo samostatné výstupní vrstvy pro každý jazyk. To je nežádoucí, jelikož sdílení napříč jazyky je v tomto případě latentní a neovladatelné ve výstupním prostoru, když jsou grafémy specifické pro daný jazyk disjunktní. Proto tato práce navrhuje mapování tokenů do společné sady před začátkem předtréninku. Stávající řešení spočívá v transliteraci zdrojového jazyka do cílového, novým přístupem je romanizace, kde je sada tokenů cílového jazyka romanizována tak, aby odpovídala anglické abecedě. Následně lze diakritiku z romanizovaných hypotéz obnovit pomocí dalšího modelu obnovy. To má výhodu ve zvýšení sdílení v prostoru výstupního grafému.en
dc.description.abstractThe automatic speech recognition area has started to adopt end-to-end neural network solutions for creating speech recognizers. However, the data hunger nature of these types of systems allows for the creation of recognizers only for high-resource languages, such as English, Chinese or Spanish. In low-resource scenarios, some solutions which alleviate the data scarcity problem have to be developed. One of the most effective techniques for this is fine-tuning a pre-trained model. The problem with the existing approaches of fine-tuning is that the token set of target and source languages does usually differ. That is why previous multi-lingual transfer learning approaches required the output layer to be changed, or mixed tokens from different languages in the output layer, or use universal token sets, or have separate output layers per language. This is undesirable because the sharing across languages in this case latent and not controllable in the output space when the language-specific graphemes are disjoint. Therefore this work proposes to map the tokens to the common set before the beginning of the pre-training. The existing solution was a transliteration of the source language to the target one, the novel approach is romanization where the token set of the target language is romanized to match the English alphabet. Subsequently, the diacritics from the romanized hypotheses can be restored using an additional restoration model. This has the advantage of increasing sharing in the output grapheme space.cs
dc.description.markAcs
dc.identifier.citationSOKOLOVSKII, V. End-to-end speech recognition for low-resource languages [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.cs
dc.identifier.other146360cs
dc.identifier.urihttp://hdl.handle.net/11012/208275
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectASRen
dc.subjectlow-resourceen
dc.subjecttransliterationen
dc.subjectromanizationen
dc.subjectmodelen
dc.subjectdataen
dc.subjecttrénováníen
dc.subjecttransfer learningen
dc.subjectřečen
dc.subjectend-to-enden
dc.subjectaugmentationen
dc.subjectfine-tuningen
dc.subjectASRcs
dc.subjectlow-resourcecs
dc.subjecttransliterationcs
dc.subjectromanizationcs
dc.subjectmodelcs
dc.subjectdatacs
dc.subjecttrainingcs
dc.subjecttransfer learningcs
dc.subjectspeechcs
dc.subjectend-to-endcs
dc.subjectaugmentationcs
dc.subjectfine-tuningcs
dc.titleEnd-to-end speech recognition for low-resource languagesen
dc.title.alternativeEnd-to-End Speech Recognition for Low-Resource Languagescs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2022-08-22cs
dcterms.modified2023-01-03-13:07:01cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid146360en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:44:56en
sync.item.modts2025.01.17 10:17:19en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.48 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-25174_v.pdf
Size:
85.52 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-25174_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-25174_o.pdf
Size:
88.3 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-25174_o.pdf
Loading...
Thumbnail Image
Name:
review_146360.html
Size:
1.45 KB
Format:
Hypertext Markup Language
Description:
file review_146360.html
Collections