Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči

Huml, Dominik

Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči

but.committee	doc. RNDr. Pavel Smrž, Ph.D. (předseda) Ing. Michal Hradiš, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Tomáš Goldmann, Ph.D. (člen) Ing. Martin Žádník, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.	cs
but.jazyk	čeština (Czech)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Polok, Alexander	cs
dc.contributor.author	Huml, Dominik	cs
dc.contributor.referee	Sedláček, Šimon	cs
dc.date.created	2025	cs
dc.description.abstract	Tato práce se zabývá efektivním trénováním neuronových sítí pro automatické rozpoznávání řeči, konkrétně pro český jazyk. Cílem je analyzovat různé přístupy k trénování modelů s omezeným počtem parametrů, zejména v jazycích, kde je k dispozici pouze omezené množství trénovacích dat. Zvolená architektura systému je typu Enkodér–Dekodér. V rámci experimentální části bylo zjištěno, že jazykový dekodér má zásadní vliv na výslednou přesnost systému, přičemž klíčovou komponentou se ukázala být embedding vrstva. Pro efektivní přenos informací mezi enkodérem a dekodérem byl použit adaptérový modul. Ten provádí časové podvzorkování výstupu z enkodéru a jeho následnou transformaci do prostoru očekávaného dekodérem. Nejlepší výsledky přinesl adaptér založený na malé Transformer síti. Navržený model dosáhl hodnoty WER 5,6 %, což představuje výrazné zlepšení oproti modelům trénovaným bez adaptéru nebo od nuly. Zároveň je model schopný konkurovat daleko většímu modelu Slavic-300+LM. Výsledky dále ukazují, že vhodně navržený adaptér umožňuje snížit počet trénovatelných parametrů při zachování vysoké přesnosti, což z něj činí vhodnou volbu pro domény s omezenými zdroji.	cs
dc.description.abstract	This thesis focuses on the effective training of neural networks for automatic speech recognition, specifically for the Czech language. The goal is to analyze various approaches to training models with a limited number of parameters, particularly for languages where only a small amount of training data is available. The chosen system architecture is of the Encoder–Decoder type. In the experimental part, it was found that the language decoder has a significant impact on the final accuracy of the system, with the embedding layer proving to be a key component. To enable efficient information transfer between the encoder and decoder, an adapter module was used. This module performs temporal subsampling of the encoder output and transforms it into the space expected by the decoder. The best results were achieved using an adapter based on a small Transformer network. The proposed model achieved a WER of 5.6 %, which represents a significant improvement over models trained without the adapter or from scratch. At the same time, the model is able to compete with the much larger Slavic-300+LM model. The results further show that a well-designed adapter enables a reduction in the number of trainable parameters while maintaining high accuracy, making it a suitable choice for low-resource domains.	en
dc.description.mark	C	cs
dc.identifier.citation	HUML, D. Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.	cs
dc.identifier.other	164398	cs
dc.identifier.uri	http://hdl.handle.net/11012/253208
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	neuronové sítě	cs
dc.subject	strojové učení	cs
dc.subject	automatické rozpoznávání řeči	cs
dc.subject	wav2vec 2.0	cs
dc.subject	gpt-2	cs
dc.subject	finetuning	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	lora	cs
dc.subject	adaptér	cs
dc.subject	jazykový model	cs
dc.subject	akustický model	cs
dc.subject	neural network	en
dc.subject	machine learning	en
dc.subject	automatic speech recognition	en
dc.subject	wav2vec 2.0	en
dc.subject	fine-tuning	en
dc.subject	natural language processing	en
dc.subject	lora	en
dc.subject	adapter	en
dc.subject	language model	en
dc.subject	acoustic model	en
dc.title	Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči	cs
dc.title.alternative	Effective Training of Neural Networks for Automatic Speech Recognition	en
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2025-06-17	cs
dcterms.modified	2025-06-17-16:08:46	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	164398	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.08.26 23:05:50	en
sync.item.modts	2025.08.26 19:43:44	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Files

Original bundle

Now showing 1 - 3 of 3

Name:: final-thesis.pdf
Size:: 1.79 MB
Format:: Adobe Portable Document Format
Description:: file final-thesis.pdf

Download

Name:: appendix-1.zip
Size:: 2.79 MB
Format:: Unknown data format
Description:: file appendix-1.zip

Download

Name:: review_164398.html
Size:: 15.88 KB
Format:: Hypertext Markup Language
Description:: file review_164398.html

Download

Collections

2025