Modelování jazyka v rozpoznávání češtiny

Mikolov, Tomáš

Modelování jazyka v rozpoznávání češtiny

but.jazyk	čeština (Czech)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Smrž, Pavel	cs
dc.contributor.author	Mikolov, Tomáš	cs
dc.contributor.referee	Černocký, Jan	cs
dc.date.created		cs
dc.description.abstract	Tato práce se zabývá problematikou jazykových modelů v oblasti automatického přepisu mluvené řeči. V teoretické části jsou rozebrány současně používané metody pro pokročilé jazykové modelování založené na statistickém přístupu - modely založené na třídách, na faktorech a na neuronových sítích. Následně je popsána implementace jazykového modelu založeného na dvou neuronových sítích. V závěru práce jsou uvedeny výsledky dosažené na Pražském a Brněnském mluveném korpusu (cca 1 170 000 slov) - redukce perplexity o zhruba 20%. Výsledky dosažené při reskórování N-best listů ukazují zlepšení při rozpoznávání spontánní řeči o více než 1%. V závěru práce jsou uvedeny možnosti využití práce, její možná rozšíření a také jsou uvedeny hlavní nevýhody současně používaných přístupů pro statistické jazykové modelování.	cs
dc.description.abstract	This work concerns the problematic of language modeling in automatic speech recognition. Currently widely used techniques for advanced language modeling based on statistical approach are described in the first part of work - class based language models, factored language models and neural network based language models. In the next section, implementation of neural network based language model is described. Results obtained on "Pražský mluvený korpus" and "Brněnský mluvený korpus" corpora (1 170 000 words) are reported, with perplexity reduction around 20%. Also, results obtained after rescoring N-best lists with spontaneous speech are reported, with absolute improvement in accuracy by more than 1%. In the conclusion, possible uses of the work are mentioned, along with possible extensions in the future. Finally, main weaknesses of current statistical language modeling techniques are described.	en
dc.description.mark	A	cs
dc.identifier.citation	MIKOLOV, T. Modelování jazyka v rozpoznávání češtiny [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .	cs
dc.identifier.other	15263	cs
dc.identifier.uri	http://hdl.handle.net/11012/54054
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	jazykový model	cs
dc.subject	čeština	cs
dc.subject	n-gramové statistiky	cs
dc.subject	neuronové sítě	cs
dc.subject	rozpoznávání řeči	cs
dc.subject	umělá inteligence	cs
dc.subject	language modeling	en
dc.subject	Czech language	en
dc.subject	n-gram statistics	en
dc.subject	neural networks	en
dc.subject	speech recognition	en
dc.subject	artificial intelligence	en
dc.title	Modelování jazyka v rozpoznávání češtiny	cs
dc.title.alternative	Language Modeling for Spech Recognition in Czech	en
dc.type	Text	cs
dc.type.driver	masterThesis	en
dc.type.evskp	diplomová práce	cs
dcterms.modified	2020-05-09-23:39:37	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	15263	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.26 14:43:53	en
sync.item.modts	2025.01.15 13:07:33	en
thesis.discipline	Počítačová grafika a multimédia	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Inženýrský	cs
thesis.name	Ing.	cs

Files

Original bundle

Now showing 1 - 2 of 2

Name:: final-thesis.pdf
Size:: 443.16 KB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: review_15263.html
Size:: 1.43 KB
Format:: Hypertext Markup Language
Description:: file review_15263.html

Download

Collections

2006