Mining of Textual Data from the Web for Speech Recognition

Kubalík, Jakub

Mining of Textual Data from the Web for Speech Recognition

Files

final-thesis.pdf (720.78 KB)

review_35045.html (1.45 KB)

Authors

Kubalík, Jakub

Advisor

Mikolov, Tomáš

Referee

Plchot, Oldřich

Mark

B

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Prvotním cílem tohoto projektu bylo prostudovat problematiku jazykového modelování pro rozpoznávání řeči a techniky pro získávání textových dat z Webu. Text představuje základní techniky rozpoznávání řeči a detailněji popisuje jazykové modely založené na statistických metodách. Zvláště se práce zabývá kriterii pro vyhodnocení kvality jazykových modelů a systémů pro rozpoznávání řeči. Text dále popisuje modely a techniky dolování dat, zvláště vyhledávání informací. Dále jsou představeny problémy spojené se získávání dat z webu, a v kontrastu s tím je představen vyhledávač Google. Součástí projektu byl návrh a implementace systému pro získávání textu z webu, jehož detailnímu popisu je věnována náležitá pozornost. Nicméně, hlavním cílem práce bylo ověřit, zda data získaná z Webu mohou mít nějaký přínos pro rozpoznávání řeči. Popsané techniky se tak snaží najít optimální způsob, jak data získaná z Webu použít pro zlepšení ukázkových jazykových modelů, ale i modelů nasazených v reálných rozpoznávacích systémech.
The preliminary goals of this project were to get familiar with language modeling for speech recognition and techniques for acquisition of text data from the Web. Speech recognition techniques are introduced and statistical language modeling is described in detail. The text also covers mining models and techniques, information retrieval especially. Specific problems of Web mining are discussed and Google search is introduced. Special attention was paid to detailed description of implementation of the text mining system. However, the main goal of this work was to determine, whether the data acquired from the Web can provide some improvement into the recognition systems. The text is describing experiments, which use the retrieved Web data to update sample language models.

Keywords

Rozpoznávání řeči , Rozpoznávání spojité řeči s velkým slovníkem , Bayesova teorie pravděpodobnosti , Jazykový model , Apriorní pravděpodobnost , Klasifikace do ekvivalentních tříd , N-gram , Smoothing , Entropie , Perplexity , Podíl OOV slov , Word Error Rate , Anotační data , Korpus , Lineární interpolace , Dolování dat , Vyhledávání informací , TF-IDF váha , Dolování webu , Dolování textu , Google PageRank , Speech recognition , Large Vocabulary Continuous Speech Recognition (LVCSR) , Bayes' probability theory , Language model , A-priori probability , Equivalence classification , N-gram , Smoothing , Information Theory , Entropy , Cross-entropy , Perplexity , Out of Vocabulary rate , Word Error Rate , Annotation data , Corpus , Linear Interpolation , Data mining , Information retrieval , TF-IDF , Web mining , Text mining , Google's PageRank

Citation

KUBALÍK, J. Mining of Textual Data from the Web for Speech Recognition [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2010.

Language of document

en

Study field

Počítačová grafika a multimédia

Comittee

prof. Dr. Ing. Jan Černocký (předseda) prof. RNDr. Milan Češka, CSc. (místopředseda) prof. Ing. Adam Herout, Ph.D. (člen) doc. RNDr. Pavel Hruška, CSc. (člen) RNDr. Marek Rychlý, Ph.D. (člen) doc. RNDr. Pavel Smrž, Ph.D. (člen)

Date of acceptance

2010-06-22

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se pak seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Vzhledem k tomu, že praktický přínos práce závisí především na vlastním zlepšení rozpoznávání řeči, tak bych poprosil autora, aby při obhajobě věnoval těmto experimentům větší prostor a aby se na základě dosažených výsledků sám pokusil zhodnotit jakého zlepšení v rozpoznávání lze s pomocí vydolovaných dat dosahovat.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/54313

Collections

2010

Citace PRO

Full item page

Mining of Textual Data from the Web for Speech Recognition

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO