Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorPolok, Alexanderen
dc.contributor.authorHorník, Matejen
dc.contributor.refereeKocour, Martinen
dc.date.created2025cs
dc.description.abstractTáto diplomová práca sa zaoberá zlepšením efektivity trénovania a výkonu modelov kodér-dekodér pre automatické rozpoznávanie reči (ASR) s využitím transformer modelov. Skúmal sa vplyv inicializačných stratégií s predtrénovanými komponentmi (Wav2Vec2, BART), úloha konvolučných adaptérov a metódy parametricky efektívneho doladenia (PEFT) ako LoRA a DoRA. Experimenty na dátových sadách LibriSpeech a VoxPopuli potvrdili, že plná predténovaná inicializácia je kľúčová pre najlepšiu slovnú chybovosť (WER) a konvergenciu. Optimálny počet adaptérov zlepšil výkon, zatiaľ čo PEFT (najmä LoRA) výrazne znížilo počet trénovateľných parametrov pri zachovaní porovnateľnej presnosti. Predtrénovanie kodéru na dátach cieľovej domény bolo prínosné a architektúra kodér-dekodér prekonala CTC model v presnosti. Optimalizovaná konfigurácia dosiahla slovnú chybovosť 8.85\% na testovacej sade VoxPopuli English. Tieto zistenia poskytujú praktické poznatky pre efektívny tréning ASR.en
dc.description.abstractThis master's thesis focuses on improving the training efficiency and performance of encoder-decoder transformer models for Automatic Speech Recognition (ASR). It investigates the impact of initialization strategies using pre-trained components (Wav2Vec2, BART), the role of convolutional adapters, and Parameter-Efficient Fine-tuning (PEFT) methods like LoRA and DoRA. Experiments on LibriSpeech and VoxPopuli datasets confirmed that full pre-trained initialization is crucial for best Word Error Rate (WER) and convergence. An optimal number of adapters improved performance, while PEFT (especially LoRA) significantly reduced trainable parameters with comparable accuracy. Domain-specific encoder pre-training proved beneficial, and the encoder-decoder model outperformed a CTC baseline in accuracy. Notably, an optimized configuration achieved a Word Error Rate of 8.85\% on the VoxPopuli English test set. These findings offer practical insights for efficient ASR training.cs
dc.description.markAcs
dc.identifier.citationHORNÍK, M. Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other164401cs
dc.identifier.urihttp://hdl.handle.net/11012/254959
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectautomatické rozpoznávanie rečien
dc.subjecthlboké učenieen
dc.subjecttransformer modelyen
dc.subjectmodely kódovač-dekóderen
dc.subjectpredtrénované modelyen
dc.subjectparametricky efektívne doladenieen
dc.subjectPEFTen
dc.subjectLoRAen
dc.subjectDoRAen
dc.subjectadaptéryen
dc.subjectinicializačné stratégieen
dc.subjectWav2Vec2en
dc.subjectBARTen
dc.subjectslovná chybovosťen
dc.subjectWERen
dc.subjectučenie typu sekvencia-na-sekvenciuen
dc.subjectučenie s vlastným dohľadomen
dc.subjectkrížová pozornosťen
dc.subjectdoladenieen
dc.subjectLibriSpeechen
dc.subjectVoxPopulien
dc.subjectvýpočtová efektivitaen
dc.subjectneurónové sieteen
dc.subjectjazykové modelyen
dc.subjectautomatic speech recognitioncs
dc.subjectdeep learningcs
dc.subjecttransformer modelscs
dc.subjectencoder-decoder modelscs
dc.subjectpre-trained modelscs
dc.subjectparameter-efficient fine-tuningcs
dc.subjectPEFTcs
dc.subjectLoRAcs
dc.subjectDoRAcs
dc.subjectadapter layerscs
dc.subjectinitialization strategiescs
dc.subjectWav2Vec2cs
dc.subjectBARTcs
dc.subjectword error ratecs
dc.subjectWERcs
dc.subjectsequence-to-sequence learningcs
dc.subjectself-supervised learningcs
dc.subjectcross-attentioncs
dc.subjectfine-tuningcs
dc.subjectLibriSpeechcs
dc.subjectVoxPopulics
dc.subjectcomputational efficiencycs
dc.subjectneural networkscs
dc.subjectlanguage modelscs
dc.titleEfektivní trénování neuronových sítí pro automatické rozpoznávání řečien
dc.title.alternativeEffective Training of Neural Networks for Automatic Speech Recognitioncs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2025-06-24cs
dcterms.modified2025-08-13-10:49:14cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid164401en
sync.item.dbtypeZPen
sync.item.insts2025.08.27 02:04:27en
sync.item.modts2025.08.26 19:56:06en
thesis.disciplineStrojové učenícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.33 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_164401.html
Size:
12.81 KB
Format:
Hypertext Markup Language
Description:
file review_164401.html

Collections