Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči
| but.committee | prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) | cs |
| but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. | cs |
| but.jazyk | angličtina (English) | |
| but.program | Informační technologie a umělá inteligence | cs |
| but.result | práce byla úspěšně obhájena | cs |
| dc.contributor.advisor | Polok, Alexander | en |
| dc.contributor.author | Horník, Matej | en |
| dc.contributor.referee | Kocour, Martin | en |
| dc.date.created | 2025 | cs |
| dc.description.abstract | Táto diplomová práca sa zaoberá zlepšením efektivity trénovania a výkonu modelov kodér-dekodér pre automatické rozpoznávanie reči (ASR) s využitím transformer modelov. Skúmal sa vplyv inicializačných stratégií s predtrénovanými komponentmi (Wav2Vec2, BART), úloha konvolučných adaptérov a metódy parametricky efektívneho doladenia (PEFT) ako LoRA a DoRA. Experimenty na dátových sadách LibriSpeech a VoxPopuli potvrdili, že plná predténovaná inicializácia je kľúčová pre najlepšiu slovnú chybovosť (WER) a konvergenciu. Optimálny počet adaptérov zlepšil výkon, zatiaľ čo PEFT (najmä LoRA) výrazne znížilo počet trénovateľných parametrov pri zachovaní porovnateľnej presnosti. Predtrénovanie kodéru na dátach cieľovej domény bolo prínosné a architektúra kodér-dekodér prekonala CTC model v presnosti. Optimalizovaná konfigurácia dosiahla slovnú chybovosť 8.85\% na testovacej sade VoxPopuli English. Tieto zistenia poskytujú praktické poznatky pre efektívny tréning ASR. | en |
| dc.description.abstract | This master's thesis focuses on improving the training efficiency and performance of encoder-decoder transformer models for Automatic Speech Recognition (ASR). It investigates the impact of initialization strategies using pre-trained components (Wav2Vec2, BART), the role of convolutional adapters, and Parameter-Efficient Fine-tuning (PEFT) methods like LoRA and DoRA. Experiments on LibriSpeech and VoxPopuli datasets confirmed that full pre-trained initialization is crucial for best Word Error Rate (WER) and convergence. An optimal number of adapters improved performance, while PEFT (especially LoRA) significantly reduced trainable parameters with comparable accuracy. Domain-specific encoder pre-training proved beneficial, and the encoder-decoder model outperformed a CTC baseline in accuracy. Notably, an optimized configuration achieved a Word Error Rate of 8.85\% on the VoxPopuli English test set. These findings offer practical insights for efficient ASR training. | cs |
| dc.description.mark | A | cs |
| dc.identifier.citation | HORNÍK, M. Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025. | cs |
| dc.identifier.other | 164401 | cs |
| dc.identifier.uri | http://hdl.handle.net/11012/254959 | |
| dc.language.iso | en | cs |
| dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
| dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
| dc.subject | automatické rozpoznávanie reči | en |
| dc.subject | hlboké učenie | en |
| dc.subject | transformer modely | en |
| dc.subject | modely kódovač-dekóder | en |
| dc.subject | predtrénované modely | en |
| dc.subject | parametricky efektívne doladenie | en |
| dc.subject | PEFT | en |
| dc.subject | LoRA | en |
| dc.subject | DoRA | en |
| dc.subject | adaptéry | en |
| dc.subject | inicializačné stratégie | en |
| dc.subject | Wav2Vec2 | en |
| dc.subject | BART | en |
| dc.subject | slovná chybovosť | en |
| dc.subject | WER | en |
| dc.subject | učenie typu sekvencia-na-sekvenciu | en |
| dc.subject | učenie s vlastným dohľadom | en |
| dc.subject | krížová pozornosť | en |
| dc.subject | doladenie | en |
| dc.subject | LibriSpeech | en |
| dc.subject | VoxPopuli | en |
| dc.subject | výpočtová efektivita | en |
| dc.subject | neurónové siete | en |
| dc.subject | jazykové modely | en |
| dc.subject | automatic speech recognition | cs |
| dc.subject | deep learning | cs |
| dc.subject | transformer models | cs |
| dc.subject | encoder-decoder models | cs |
| dc.subject | pre-trained models | cs |
| dc.subject | parameter-efficient fine-tuning | cs |
| dc.subject | PEFT | cs |
| dc.subject | LoRA | cs |
| dc.subject | DoRA | cs |
| dc.subject | adapter layers | cs |
| dc.subject | initialization strategies | cs |
| dc.subject | Wav2Vec2 | cs |
| dc.subject | BART | cs |
| dc.subject | word error rate | cs |
| dc.subject | WER | cs |
| dc.subject | sequence-to-sequence learning | cs |
| dc.subject | self-supervised learning | cs |
| dc.subject | cross-attention | cs |
| dc.subject | fine-tuning | cs |
| dc.subject | LibriSpeech | cs |
| dc.subject | VoxPopuli | cs |
| dc.subject | computational efficiency | cs |
| dc.subject | neural networks | cs |
| dc.subject | language models | cs |
| dc.title | Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči | en |
| dc.title.alternative | Effective Training of Neural Networks for Automatic Speech Recognition | cs |
| dc.type | Text | cs |
| dc.type.driver | masterThesis | en |
| dc.type.evskp | diplomová práce | cs |
| dcterms.dateAccepted | 2025-06-24 | cs |
| dcterms.modified | 2025-08-13-10:49:14 | cs |
| eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
| sync.item.dbid | 164401 | en |
| sync.item.dbtype | ZP | en |
| sync.item.insts | 2025.08.27 02:04:27 | en |
| sync.item.modts | 2025.08.26 19:56:06 | en |
| thesis.discipline | Strojové učení | cs |
| thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
| thesis.level | Inženýrský | cs |
| thesis.name | Ing. | cs |
