Velké předtrénované jazykové modely v rozpoznávání řeči

but.committeeprof. Dr. Ing. Jan Černocký (předseda) Ing. Ondřej Lengál, Ph.D. (člen) doc. Ing. Peter Chudý, Ph.D., MBA (člen) Ing. Radim Kocman, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBeneš, Karelen
dc.contributor.authorTomašovič, Martinen
dc.contributor.refereePolok, Alexanderen
dc.date.created2024cs
dc.description.abstractTáto práca má za cieľ preskúmať, v akých podmienkach veľké jazykové modely vylepšujú prepisy automatického rozpoznávania reči. Konkrétne sa zameriava na preskórovanie n-najlepších hypotéz pomocou maskovaných aj autoregresívnych jazykových modelov. Pomocou nich sa každej hypotéze priradí skóre, ktoré sa následne interpoluje so skórami získanými zo systému prepisu reči. Tento postup som testoval naprieč datasetmi a rôznymi systémami pre prepis reči s rôznym nastavením. Výsledky vykazujú, že preskórovanie znižuje mieru chybovosti hypotéz získaných z modelov Wav2Vec 2.0 a Jasper. Dotrénovanie modelov sa overilo byť veľmi prospešné pri danej úlohe. Menšie dotrénované modely prekonali väčšie nedotrénované pri preskórovaní. Výsledky tejto práce prispievajú k lepšiemu porozumeniu, v akých podmienkach použiť jazykový model (autoregresívny, maskovaný) pri preskórovaní prepisov reči. Táto práca skúma vplyv dotrénovania, normalizácie a rozdelenia skóre z CTC dekodéra, na zníženie miery chybovosti slov.en
dc.description.abstractThis thesis explores the conditions under which a Large Language Model (LLM) improves Automatic Speech Recognition (ASR) transcription. Specifically, the thesis focuses on n-best rescoring with masked and autoregressive language models. The n-best hypotheses are scored using LLM and then this score is interpolated with the scores from ASR. This approach is tested across different ASR settings and datasets. Results demonstrate that rescoring hypotheses from Wav2Vec 2.0 and Jasper ASR systems reduces the error rate. LLM fine-tuning proves to be very beneficial. Smaller fine-tuned models can surpass larger non-fine-tuned ones. The findings of this thesis broaden the knowledge of the conditions for LLM (autoregressive, masked) utilization in ASR rescoring. The thesis observes the influence of fine-tuning, normalization and separating scores from a CTC decoder on the decrease of word error rate.cs
dc.description.markCcs
dc.identifier.citationTOMAŠOVIČ, M. Velké předtrénované jazykové modely v rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.cs
dc.identifier.other153477cs
dc.identifier.urihttp://hdl.handle.net/11012/247450
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectautomatické rozpoznávanie rečien
dc.subjectpreskórovnaie n-najlepších hypotézen
dc.subjectveľký jazykový modelen
dc.subjectmaskované modelovanie jazykaen
dc.subjectautoregresívne modelovanie jazykaen
dc.subjectautomatic speech recognitioncs
dc.subjectn-best rescoringcs
dc.subjectlarge language modelcs
dc.subjectmasked language modelingcs
dc.subjectautoregressive language modelingcs
dc.titleVelké předtrénované jazykové modely v rozpoznávání řečien
dc.title.alternativeLarge Language Models in Speech Recognitioncs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2024-06-12cs
dcterms.modified2024-06-17-08:45:50cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid153477en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 21:01:25en
sync.item.modts2025.01.15 19:49:32en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.9 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_153477.html
Size:
12.58 KB
Format:
Hypertext Markup Language
Description:
file review_153477.html
Collections