Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči

Horník, Matej

Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči

Files

final-thesis.pdf (2.33 MB)

review_164401.html (12.81 KB)

Authors

Horník, Matej

Advisor

Polok, Alexander

Referee

Kocour, Martin

Mark

A

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Táto diplomová práca sa zaoberá zlepšením efektivity trénovania a výkonu modelov kodér-dekodér pre automatické rozpoznávanie reči (ASR) s využitím transformer modelov. Skúmal sa vplyv inicializačných stratégií s predtrénovanými komponentmi (Wav2Vec2, BART), úloha konvolučných adaptérov a metódy parametricky efektívneho doladenia (PEFT) ako LoRA a DoRA. Experimenty na dátových sadách LibriSpeech a VoxPopuli potvrdili, že plná predténovaná inicializácia je kľúčová pre najlepšiu slovnú chybovosť (WER) a konvergenciu. Optimálny počet adaptérov zlepšil výkon, zatiaľ čo PEFT (najmä LoRA) výrazne znížilo počet trénovateľných parametrov pri zachovaní porovnateľnej presnosti. Predtrénovanie kodéru na dátach cieľovej domény bolo prínosné a architektúra kodér-dekodér prekonala CTC model v presnosti. Optimalizovaná konfigurácia dosiahla slovnú chybovosť 8.85\% na testovacej sade VoxPopuli English. Tieto zistenia poskytujú praktické poznatky pre efektívny tréning ASR.
This master's thesis focuses on improving the training efficiency and performance of encoder-decoder transformer models for Automatic Speech Recognition (ASR). It investigates the impact of initialization strategies using pre-trained components (Wav2Vec2, BART), the role of convolutional adapters, and Parameter-Efficient Fine-tuning (PEFT) methods like LoRA and DoRA. Experiments on LibriSpeech and VoxPopuli datasets confirmed that full pre-trained initialization is crucial for best Word Error Rate (WER) and convergence. An optimal number of adapters improved performance, while PEFT (especially LoRA) significantly reduced trainable parameters with comparable accuracy. Domain-specific encoder pre-training proved beneficial, and the encoder-decoder model outperformed a CTC baseline in accuracy. Notably, an optimized configuration achieved a Word Error Rate of 8.85\% on the VoxPopuli English test set. These findings offer practical insights for efficient ASR training.

Keywords

automatické rozpoznávanie reči , hlboké učenie , transformer modely , modely kódovač-dekóder , predtrénované modely , parametricky efektívne doladenie , PEFT , LoRA , DoRA , adaptéry , inicializačné stratégie , Wav2Vec2 , BART , slovná chybovosť , WER , učenie typu sekvencia-na-sekvenciu , učenie s vlastným dohľadom , krížová pozornosť , doladenie , LibriSpeech , VoxPopuli , výpočtová efektivita , neurónové siete , jazykové modely , automatic speech recognition , deep learning , transformer models , encoder-decoder models , pre-trained models , parameter-efficient fine-tuning , PEFT , LoRA , DoRA , adapter layers , initialization strategies , Wav2Vec2 , BART , word error rate , WER , sequence-to-sequence learning , self-supervised learning , cross-attention , fine-tuning , LibriSpeech , VoxPopuli , computational efficiency , neural networks , language models

Citation

HORNÍK, M. Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

en

Study field

Strojové učení

Comittee

prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)

Date of acceptance

2025-06-24

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/254959

Collections

2025

Citace PRO

Full item page

Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO