Velké předtrénované jazykové modely v rozpoznávání řeči
but.committee | prof. Dr. Ing. Jan Černocký (předseda) Ing. Ondřej Lengál, Ph.D. (člen) doc. Ing. Peter Chudý, Ph.D., MBA (člen) Ing. Radim Kocman, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. | cs |
but.jazyk | angličtina (English) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Beneš, Karel | en |
dc.contributor.author | Tomašovič, Martin | en |
dc.contributor.referee | Polok, Alexander | en |
dc.date.created | 2024 | cs |
dc.description.abstract | Táto práca má za cieľ preskúmať, v akých podmienkach veľké jazykové modely vylepšujú prepisy automatického rozpoznávania reči. Konkrétne sa zameriava na preskórovanie n-najlepších hypotéz pomocou maskovaných aj autoregresívnych jazykových modelov. Pomocou nich sa každej hypotéze priradí skóre, ktoré sa následne interpoluje so skórami získanými zo systému prepisu reči. Tento postup som testoval naprieč datasetmi a rôznymi systémami pre prepis reči s rôznym nastavením. Výsledky vykazujú, že preskórovanie znižuje mieru chybovosti hypotéz získaných z modelov Wav2Vec 2.0 a Jasper. Dotrénovanie modelov sa overilo byť veľmi prospešné pri danej úlohe. Menšie dotrénované modely prekonali väčšie nedotrénované pri preskórovaní. Výsledky tejto práce prispievajú k lepšiemu porozumeniu, v akých podmienkach použiť jazykový model (autoregresívny, maskovaný) pri preskórovaní prepisov reči. Táto práca skúma vplyv dotrénovania, normalizácie a rozdelenia skóre z CTC dekodéra, na zníženie miery chybovosti slov. | en |
dc.description.abstract | This thesis explores the conditions under which a Large Language Model (LLM) improves Automatic Speech Recognition (ASR) transcription. Specifically, the thesis focuses on n-best rescoring with masked and autoregressive language models. The n-best hypotheses are scored using LLM and then this score is interpolated with the scores from ASR. This approach is tested across different ASR settings and datasets. Results demonstrate that rescoring hypotheses from Wav2Vec 2.0 and Jasper ASR systems reduces the error rate. LLM fine-tuning proves to be very beneficial. Smaller fine-tuned models can surpass larger non-fine-tuned ones. The findings of this thesis broaden the knowledge of the conditions for LLM (autoregressive, masked) utilization in ASR rescoring. The thesis observes the influence of fine-tuning, normalization and separating scores from a CTC decoder on the decrease of word error rate. | cs |
dc.description.mark | C | cs |
dc.identifier.citation | TOMAŠOVIČ, M. Velké předtrénované jazykové modely v rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024. | cs |
dc.identifier.other | 153477 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/247450 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | automatické rozpoznávanie reči | en |
dc.subject | preskórovnaie n-najlepších hypotéz | en |
dc.subject | veľký jazykový model | en |
dc.subject | maskované modelovanie jazyka | en |
dc.subject | autoregresívne modelovanie jazyka | en |
dc.subject | automatic speech recognition | cs |
dc.subject | n-best rescoring | cs |
dc.subject | large language model | cs |
dc.subject | masked language modeling | cs |
dc.subject | autoregressive language modeling | cs |
dc.title | Velké předtrénované jazykové modely v rozpoznávání řeči | en |
dc.title.alternative | Large Language Models in Speech Recognition | cs |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2024-06-12 | cs |
dcterms.modified | 2024-06-17-08:45:50 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 153477 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 21:01:25 | en |
sync.item.modts | 2025.01.15 19:49:32 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |