Co nejlepší rozpoznávač řeči na vlastních datech

Sýkora, Tomáš

Co nejlepší rozpoznávač řeči na vlastních datech

but.committee	doc. Mgr. Adam Rogalewicz, Ph.D. (předseda) doc. Ing. Lukáš Burget, Ph.D. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Martin Hrubý, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Q1: Vysvětlete princip fungování log-lineární interpolace jazykových modelů. Co se děje se skore častých a málo častých slov, když má jazykový model negativní exponent? (např. v tabulce 5.2) Q2: Která oblast praktické části byla nejpracnější a která další byla náročná? Jak probíhá učení akustického modelu? Bude systém běžet offline nebo online (přímo během řeči)?	cs
but.jazyk	angličtina (English)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Szőke, Igor	en
dc.contributor.author	Sýkora, Tomáš	en
dc.contributor.referee	Veselý, Karel	en
dc.date.available	2023-07-14	cs
dc.date.created	2020	cs
dc.description.abstract	Denno-denne vzniká množstvo špičkových objavov v oblasti strojového učenia. Prispôsobením týchto sýstémov tak, aby čo najlepšie fungovali iba na obmedzenej podmnožine všeobecných dát, môžu byť dosiahnuté výrazné zlepšenia v prenosti. Prispôsobením automatického rozpoznávača reči na doménovo špecifické dáta je možné vytvoriť produkt dosahujúci omnoho lepšie výsledky ako rozpoznávač reči natrénovaný na všeobecných dátach. Táto práca prezentuje 17-percentné zlepšenie chybovosti prepísaných slov oproti automatickému rozpoznávaču reči ponúkaného službou Google Speech. Toto zlepšenie bolo dosiahnuté precíznou anotáciou a prípravou doménových dát a kombináciou špičkových techník a algoritmov v oblasti automatického rozpoznávania reči. Popísaný systém bol úspešne nasadený do výrobného prostredia transkripčnej spoločnosti Parrot, ktorej súčasťou som od jej začiatku. Nasadený systém výrazne zvýšil efektivitu zamestancov používajúcich výstup popísaného rozpoznávača.	en
dc.description.abstract	Many state-of-the-art results in different machine learning areas are presented on day-to-day basis. By adjusting these systems to perform perfectly on a specific subset of all general data, huge improvements may be achieved in their resulting accuracy. Usage of domain adaptation in automatic speech recognition can bring us to production level models capable of transcribing difficult and noisy customer conversations way more accurately than the general models trained on all kinds of language and speech data. In this work I present 17% word error rate improvement in our speech recognition task over the general domain speech recognizer from Google. The improvement was achieved by both very precise annotation and preparation of domain data and by combining state-of-the-art techniques and algorithms. The described system was successfully integrated into a production environment of the Parrot transcription company, where I am a member of the initial team, which drastically increased performance of the human transcribers.	cs
dc.description.mark	A	cs
dc.identifier.citation	SÝKORA, T. Co nejlepší rozpoznávač řeči na vlastních datech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020.	cs
dc.identifier.other	129247	cs
dc.identifier.uri	http://hdl.handle.net/11012/211891
dc.language.iso	en	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Přístup k plnému textu prostřednictvím internetu byl licenční smlouvou omezen na dobu 3 roku/let	cs
dc.subject	automatické rozpoznávanie reči	en
dc.subject	doménové dáta	en
dc.subject	kaldi	en
dc.subject	dataset	en
dc.subject	čistenie rečových dát	en
dc.subject	automatic speech recognition	cs
dc.subject	domain data	cs
dc.subject	kaldi	cs
dc.subject	dataset	cs
dc.subject	speech data cleaning	cs
dc.title	Co nejlepší rozpoznávač řeči na vlastních datech	en
dc.title.alternative	The Best Possible Speech Recognizer on Your Own Data	cs
dc.type	Text	cs
dc.type.driver	masterThesis	en
dc.type.evskp	diplomová práce	cs
dcterms.dateAccepted	2020-07-14	cs
dcterms.modified	2020-07-17-14:40:14	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	129247	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.26 15:32:34	en
sync.item.modts	2025.01.15 23:26:16	en
thesis.discipline	Inteligentní systémy	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Inženýrský	cs
thesis.name	Ing.	cs

Files

Original bundle

Now showing 1 - 3 of 3

Name:: Posudek-Vedouci prace-18056_v.pdf
Size:: 86.3 KB
Format:: Adobe Portable Document Format
Description:: Posudek-Vedouci prace-18056_v.pdf

Download

Name:: Posudek-Oponent prace-18056_o.pdf
Size:: 88.5 KB
Format:: Adobe Portable Document Format
Description:: Posudek-Oponent prace-18056_o.pdf

Download

Name:: review_129247.html
Size:: 1.44 KB
Format:: Hypertext Markup Language
Description:: file review_129247.html

Download

Collections

2020