Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči

but.committeedoc. RNDr. Pavel Smrž, Ph.D. (předseda) Ing. Michal Hradiš, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Tomáš Goldmann, Ph.D. (člen) Ing. Martin Žádník, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorPolok, Alexandercs
dc.contributor.authorHuml, Dominikcs
dc.contributor.refereeSedláček, Šimoncs
dc.date.created2025cs
dc.description.abstractTato práce se zabývá efektivním trénováním neuronových sítí pro automatické rozpoznávání řeči, konkrétně pro český jazyk. Cílem je analyzovat různé přístupy k trénování modelů s omezeným počtem parametrů, zejména v jazycích, kde je k dispozici pouze omezené množství trénovacích dat. Zvolená architektura systému je typu Enkodér–Dekodér. V rámci experimentální části bylo zjištěno, že jazykový dekodér má zásadní vliv na výslednou přesnost systému, přičemž klíčovou komponentou se ukázala být embedding vrstva. Pro efektivní přenos informací mezi enkodérem a dekodérem byl použit adaptérový modul. Ten provádí časové podvzorkování výstupu z enkodéru a jeho následnou transformaci do prostoru očekávaného dekodérem. Nejlepší výsledky přinesl adaptér založený na malé Transformer síti. Navržený model dosáhl hodnoty WER 5,6 %, což představuje výrazné zlepšení oproti modelům trénovaným bez adaptéru nebo od nuly. Zároveň je model schopný konkurovat daleko většímu modelu Slavic-300+LM. Výsledky dále ukazují, že vhodně navržený adaptér umožňuje snížit počet trénovatelných parametrů při zachování vysoké přesnosti, což z něj činí vhodnou volbu pro domény s omezenými zdroji.cs
dc.description.abstractThis thesis focuses on the effective training of neural networks for automatic speech recognition, specifically for the Czech language. The goal is to analyze various approaches to training models with a limited number of parameters, particularly for languages where only a small amount of training data is available. The chosen system architecture is of the Encoder–Decoder type. In the experimental part, it was found that the language decoder has a significant impact on the final accuracy of the system, with the embedding layer proving to be a key component. To enable efficient information transfer between the encoder and decoder, an adapter module was used. This module performs temporal subsampling of the encoder output and transforms it into the space expected by the decoder. The best results were achieved using an adapter based on a small Transformer network. The proposed model achieved a WER of 5.6 %, which represents a significant improvement over models trained without the adapter or from scratch. At the same time, the model is able to compete with the much larger Slavic-300+LM model. The results further show that a well-designed adapter enables a reduction in the number of trainable parameters while maintaining high accuracy, making it a suitable choice for low-resource domains.en
dc.description.markCcs
dc.identifier.citationHUML, D. Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other164398cs
dc.identifier.urihttp://hdl.handle.net/11012/253208
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectneuronové sítěcs
dc.subjectstrojové učenícs
dc.subjectautomatické rozpoznávání řečics
dc.subjectwav2vec 2.0cs
dc.subjectgpt-2cs
dc.subjectfinetuningcs
dc.subjectzpracování přirozeného jazykacs
dc.subjectloracs
dc.subjectadaptércs
dc.subjectjazykový modelcs
dc.subjectakustický modelcs
dc.subjectneural networken
dc.subjectmachine learningen
dc.subjectautomatic speech recognitionen
dc.subjectwav2vec 2.0en
dc.subjectfine-tuningen
dc.subjectnatural language processingen
dc.subjectloraen
dc.subjectadapteren
dc.subjectlanguage modelen
dc.subjectacoustic modelen
dc.titleEfektivní trénování neuronových sítí pro automatické rozpoznávání řečics
dc.title.alternativeEffective Training of Neural Networks for Automatic Speech Recognitionen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2025-06-17cs
dcterms.modified2025-06-17-16:08:46cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid164398en
sync.item.dbtypeZPen
sync.item.insts2025.08.26 23:05:50en
sync.item.modts2025.08.26 19:43:44en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs

Files

Original bundle

Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.79 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.zip
Size:
2.79 MB
Format:
Unknown data format
Description:
file appendix-1.zip
Loading...
Thumbnail Image
Name:
review_164398.html
Size:
15.88 KB
Format:
Hypertext Markup Language
Description:
file review_164398.html

Collections