Modelování jazyka v rozpoznávání češtiny
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Smrž, Pavel | cs |
dc.contributor.author | Mikolov, Tomáš | cs |
dc.contributor.referee | Černocký, Jan | cs |
dc.date.created | cs | |
dc.description.abstract | Tato práce se zabývá problematikou jazykových modelů v oblasti automatického přepisu mluvené řeči. V teoretické části jsou rozebrány současně používané metody pro pokročilé jazykové modelování založené na statistickém přístupu - modely založené na třídách, na faktorech a na neuronových sítích. Následně je popsána implementace jazykového modelu založeného na dvou neuronových sítích. V závěru práce jsou uvedeny výsledky dosažené na Pražském a Brněnském mluveném korpusu (cca 1 170 000 slov) - redukce perplexity o zhruba 20%. Výsledky dosažené při reskórování N-best listů ukazují zlepšení při rozpoznávání spontánní řeči o více než 1%. V závěru práce jsou uvedeny možnosti využití práce, její možná rozšíření a také jsou uvedeny hlavní nevýhody současně používaných přístupů pro statistické jazykové modelování. | cs |
dc.description.abstract | This work concerns the problematic of language modeling in automatic speech recognition. Currently widely used techniques for advanced language modeling based on statistical approach are described in the first part of work - class based language models, factored language models and neural network based language models. In the next section, implementation of neural network based language model is described. Results obtained on "Pražský mluvený korpus" and "Brněnský mluvený korpus" corpora (1 170 000 words) are reported, with perplexity reduction around 20%. Also, results obtained after rescoring N-best lists with spontaneous speech are reported, with absolute improvement in accuracy by more than 1%. In the conclusion, possible uses of the work are mentioned, along with possible extensions in the future. Finally, main weaknesses of current statistical language modeling techniques are described. | en |
dc.description.mark | A | cs |
dc.identifier.citation | MIKOLOV, T. Modelování jazyka v rozpoznávání češtiny [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. . | cs |
dc.identifier.other | 15263 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/54054 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | jazykový model | cs |
dc.subject | čeština | cs |
dc.subject | n-gramové statistiky | cs |
dc.subject | neuronové sítě | cs |
dc.subject | rozpoznávání řeči | cs |
dc.subject | umělá inteligence | cs |
dc.subject | language modeling | en |
dc.subject | Czech language | en |
dc.subject | n-gram statistics | en |
dc.subject | neural networks | en |
dc.subject | speech recognition | en |
dc.subject | artificial intelligence | en |
dc.title | Modelování jazyka v rozpoznávání češtiny | cs |
dc.title.alternative | Language Modeling for Spech Recognition in Czech | en |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.modified | 2020-05-09-23:39:37 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 15263 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 14:43:53 | en |
sync.item.modts | 2025.01.15 13:07:33 | en |
thesis.discipline | Počítačová grafika a multimédia | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |