Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči
| but.committee | doc. RNDr. Pavel Smrž, Ph.D. (předseda) Ing. Michal Hradiš, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Tomáš Goldmann, Ph.D. (člen) Ing. Martin Žádník, Ph.D. (člen) | cs |
| but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. | cs |
| but.jazyk | čeština (Czech) | |
| but.program | Informační technologie | cs |
| but.result | práce byla úspěšně obhájena | cs |
| dc.contributor.advisor | Polok, Alexander | cs |
| dc.contributor.author | Huml, Dominik | cs |
| dc.contributor.referee | Sedláček, Šimon | cs |
| dc.date.created | 2025 | cs |
| dc.description.abstract | Tato práce se zabývá efektivním trénováním neuronových sítí pro automatické rozpoznávání řeči, konkrétně pro český jazyk. Cílem je analyzovat různé přístupy k trénování modelů s omezeným počtem parametrů, zejména v jazycích, kde je k dispozici pouze omezené množství trénovacích dat. Zvolená architektura systému je typu Enkodér–Dekodér. V rámci experimentální části bylo zjištěno, že jazykový dekodér má zásadní vliv na výslednou přesnost systému, přičemž klíčovou komponentou se ukázala být embedding vrstva. Pro efektivní přenos informací mezi enkodérem a dekodérem byl použit adaptérový modul. Ten provádí časové podvzorkování výstupu z enkodéru a jeho následnou transformaci do prostoru očekávaného dekodérem. Nejlepší výsledky přinesl adaptér založený na malé Transformer síti. Navržený model dosáhl hodnoty WER 5,6 %, což představuje výrazné zlepšení oproti modelům trénovaným bez adaptéru nebo od nuly. Zároveň je model schopný konkurovat daleko většímu modelu Slavic-300+LM. Výsledky dále ukazují, že vhodně navržený adaptér umožňuje snížit počet trénovatelných parametrů při zachování vysoké přesnosti, což z něj činí vhodnou volbu pro domény s omezenými zdroji. | cs |
| dc.description.abstract | This thesis focuses on the effective training of neural networks for automatic speech recognition, specifically for the Czech language. The goal is to analyze various approaches to training models with a limited number of parameters, particularly for languages where only a small amount of training data is available. The chosen system architecture is of the Encoder–Decoder type. In the experimental part, it was found that the language decoder has a significant impact on the final accuracy of the system, with the embedding layer proving to be a key component. To enable efficient information transfer between the encoder and decoder, an adapter module was used. This module performs temporal subsampling of the encoder output and transforms it into the space expected by the decoder. The best results were achieved using an adapter based on a small Transformer network. The proposed model achieved a WER of 5.6 %, which represents a significant improvement over models trained without the adapter or from scratch. At the same time, the model is able to compete with the much larger Slavic-300+LM model. The results further show that a well-designed adapter enables a reduction in the number of trainable parameters while maintaining high accuracy, making it a suitable choice for low-resource domains. | en |
| dc.description.mark | C | cs |
| dc.identifier.citation | HUML, D. Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025. | cs |
| dc.identifier.other | 164398 | cs |
| dc.identifier.uri | http://hdl.handle.net/11012/253208 | |
| dc.language.iso | cs | cs |
| dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
| dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
| dc.subject | neuronové sítě | cs |
| dc.subject | strojové učení | cs |
| dc.subject | automatické rozpoznávání řeči | cs |
| dc.subject | wav2vec 2.0 | cs |
| dc.subject | gpt-2 | cs |
| dc.subject | finetuning | cs |
| dc.subject | zpracování přirozeného jazyka | cs |
| dc.subject | lora | cs |
| dc.subject | adaptér | cs |
| dc.subject | jazykový model | cs |
| dc.subject | akustický model | cs |
| dc.subject | neural network | en |
| dc.subject | machine learning | en |
| dc.subject | automatic speech recognition | en |
| dc.subject | wav2vec 2.0 | en |
| dc.subject | fine-tuning | en |
| dc.subject | natural language processing | en |
| dc.subject | lora | en |
| dc.subject | adapter | en |
| dc.subject | language model | en |
| dc.subject | acoustic model | en |
| dc.title | Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči | cs |
| dc.title.alternative | Effective Training of Neural Networks for Automatic Speech Recognition | en |
| dc.type | Text | cs |
| dc.type.driver | bachelorThesis | en |
| dc.type.evskp | bakalářská práce | cs |
| dcterms.dateAccepted | 2025-06-17 | cs |
| dcterms.modified | 2025-06-17-16:08:46 | cs |
| eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
| sync.item.dbid | 164398 | en |
| sync.item.dbtype | ZP | en |
| sync.item.insts | 2025.08.26 23:05:50 | en |
| sync.item.modts | 2025.08.26 19:43:44 | en |
| thesis.discipline | Informační technologie | cs |
| thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
| thesis.level | Bakalářský | cs |
| thesis.name | Bc. | cs |
Files
Original bundle
1 - 3 of 3
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.79 MB
- Format:
- Adobe Portable Document Format
- Description:
- file final-thesis.pdf
Loading...
- Name:
- appendix-1.zip
- Size:
- 2.79 MB
- Format:
- Unknown data format
- Description:
- file appendix-1.zip
Loading...
- Name:
- review_164398.html
- Size:
- 15.88 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_164398.html
