End-to-end speech recognition for low-resource languages
but.committee | prof. Ing. Adam Herout, Ph.D. (předseda) doc. Ing. František Zbořil, Ph.D. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Zdeněk Materna, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Where do you see the largest potential to improve end-to-end speech transcription system for low resources languages - from transliteration/romanization, self-supervised techniques like Wave2Vec2/HuBERT/WavLM, training data augmentation, of from something else? The RNN Transducer architecture was used. What improvement do you expect from two pass system with attention-based architecture in the second pass? How would you extend the work into a scientific publication? | cs |
but.jazyk | angličtina (English) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Karafiát, Martin | en |
dc.contributor.author | Sokolovskii, Vladislav | en |
dc.contributor.referee | Schwarz, Petr | en |
dc.date.created | 2022 | cs |
dc.description.abstract | Oblast automatického rozpoznávání řeči začala přijímat end-to-end řešení neuronové sítě pro vytváření rozpoznávačů řeči. Povaha datového hladu těchto typů systémů však umožňuje vytvářet rozpoznávače pouze pro jazyky s velkými zdroji, jako je angličtina, čínština nebo španělština. Ve scénářích s nízkými zdroji je třeba vyvinout některá řešení, která zmírní problém nedostatku dat. Jednou z nejúčinnějších technik je doladění předtrénovaného modelu. Problém se stávajícími přístupy ladění spočívá v tom, že sada tokenů cílového a zdrojového jazyka se obvykle liší. To je důvod, proč předchozí přístupy k učení vícejazyčného přenosu vyžadovaly změnu výstupní vrstvy nebo smíchání tokenů z různých jazyků ve výstupní vrstvě, případně použití univerzální sady tokenů anebo samostatné výstupní vrstvy pro každý jazyk. To je nežádoucí, jelikož sdílení napříč jazyky je v tomto případě latentní a neovladatelné ve výstupním prostoru, když jsou grafémy specifické pro daný jazyk disjunktní. Proto tato práce navrhuje mapování tokenů do společné sady před začátkem předtréninku. Stávající řešení spočívá v transliteraci zdrojového jazyka do cílového, novým přístupem je romanizace, kde je sada tokenů cílového jazyka romanizována tak, aby odpovídala anglické abecedě. Následně lze diakritiku z romanizovaných hypotéz obnovit pomocí dalšího modelu obnovy. To má výhodu ve zvýšení sdílení v prostoru výstupního grafému. | en |
dc.description.abstract | The automatic speech recognition area has started to adopt end-to-end neural network solutions for creating speech recognizers. However, the data hunger nature of these types of systems allows for the creation of recognizers only for high-resource languages, such as English, Chinese or Spanish. In low-resource scenarios, some solutions which alleviate the data scarcity problem have to be developed. One of the most effective techniques for this is fine-tuning a pre-trained model. The problem with the existing approaches of fine-tuning is that the token set of target and source languages does usually differ. That is why previous multi-lingual transfer learning approaches required the output layer to be changed, or mixed tokens from different languages in the output layer, or use universal token sets, or have separate output layers per language. This is undesirable because the sharing across languages in this case latent and not controllable in the output space when the language-specific graphemes are disjoint. Therefore this work proposes to map the tokens to the common set before the beginning of the pre-training. The existing solution was a transliteration of the source language to the target one, the novel approach is romanization where the token set of the target language is romanized to match the English alphabet. Subsequently, the diacritics from the romanized hypotheses can be restored using an additional restoration model. This has the advantage of increasing sharing in the output grapheme space. | cs |
dc.description.mark | A | cs |
dc.identifier.citation | SOKOLOVSKII, V. End-to-end speech recognition for low-resource languages [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022. | cs |
dc.identifier.other | 146360 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/208275 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | ASR | en |
dc.subject | low-resource | en |
dc.subject | transliteration | en |
dc.subject | romanization | en |
dc.subject | model | en |
dc.subject | data | en |
dc.subject | trénování | en |
dc.subject | transfer learning | en |
dc.subject | řeč | en |
dc.subject | end-to-end | en |
dc.subject | augmentation | en |
dc.subject | fine-tuning | en |
dc.subject | ASR | cs |
dc.subject | low-resource | cs |
dc.subject | transliteration | cs |
dc.subject | romanization | cs |
dc.subject | model | cs |
dc.subject | data | cs |
dc.subject | training | cs |
dc.subject | transfer learning | cs |
dc.subject | speech | cs |
dc.subject | end-to-end | cs |
dc.subject | augmentation | cs |
dc.subject | fine-tuning | cs |
dc.title | End-to-end speech recognition for low-resource languages | en |
dc.title.alternative | End-to-End Speech Recognition for Low-Resource Languages | cs |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2022-08-22 | cs |
dcterms.modified | 2023-01-03-13:07:01 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 146360 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 19:44:56 | en |
sync.item.modts | 2025.01.17 10:17:19 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.48 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-25174_v.pdf
- Size:
- 85.52 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-25174_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-25174_o.pdf
- Size:
- 88.3 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-25174_o.pdf
Loading...
- Name:
- review_146360.html
- Size:
- 1.45 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_146360.html