Rozpoznávač řeči s omezeným slovníkem
Loading...
Date
Authors
Vystavěl, Kamil
ORCID
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Bakalářská práce se zabývá implementací metody rozpoznávání řeči s omezeným počtem rozpoznávaných slov v prostředí Matlab. Rozpoznávač je založen na metodě dynamického programování realizované algoritmem borcení časové osy (DTW) a je určen pro rozpoznávání izolovaných slov. Z řečového signálu jsou vyčíslovány příznaky pomocí metod krátkodobé analýzy signálu v časové a kmitočtové oblasti, dále pomocí metod na principu kepstrální analýzy a lineární prediktivní analýzy signálu. Příznaky vytvoří obraz slova vhodný pro kvantifikaci míry podobnosti s obrazem jiného slova. Algoritmus borcení časové osy eliminuje vliv kolísání tempa promluvy nelineární normalizací časové osy jednoho ze slov tak, aby se obrazy slov co nejvíce shodovaly. Míra podobnosti dvou slov je vyčíslena jako vzdálenost slov. Ve slovníku rozpoznávače jsou uloženy obrazy známých slov, obraz neznámého slova je porovnán s obrazy slov ve slovníku a jsou vyčísleny vzdálenosti každého známého slova s neznámým slovem. Neznámé slovo je určeno jako shodné s tím slovem ve slovníku, ke kterému má nejmenší vzdálenost. Úspěšnost klasifikace je závislá především na volbě příznaků.
This bachelor thesis deals with the implementation of voice diagnostic method with limited number of recognized words in Matlab environment. Recognizer is designed for recognition of isolated words and is based on the dynamic programming method. This method is realized by the dynamic time warping algorithm (DTW). Features of the speech signal are calculated by methods of short-term analysis in time and frequency domain and by methods that are based on cepstral analysis and linear predictive analysis. The representation of the word, which is generated from its features, is suitable for quantifying the degree of similarity with the representation of another word. In order to achieve the highest degree of similarity, the dynamic time warping algorithm eliminates influence of fluctuation of the speech rate by non-linear normalization time axis of one of the compared words. The degree of the similarity of the two compared words is enumerated as the words’ distance. The representations of known words are stored in a word-book. The unknown word is compared with all words in the word-book and recognizer calculates distances between every known word and the unknown word. The unknown word is defined as identical with the known word that has the shortest distance to the unknown word. The successfulness depends mainly on the choice of the features.
This bachelor thesis deals with the implementation of voice diagnostic method with limited number of recognized words in Matlab environment. Recognizer is designed for recognition of isolated words and is based on the dynamic programming method. This method is realized by the dynamic time warping algorithm (DTW). Features of the speech signal are calculated by methods of short-term analysis in time and frequency domain and by methods that are based on cepstral analysis and linear predictive analysis. The representation of the word, which is generated from its features, is suitable for quantifying the degree of similarity with the representation of another word. In order to achieve the highest degree of similarity, the dynamic time warping algorithm eliminates influence of fluctuation of the speech rate by non-linear normalization time axis of one of the compared words. The degree of the similarity of the two compared words is enumerated as the words’ distance. The representations of known words are stored in a word-book. The unknown word is compared with all words in the word-book and recognizer calculates distances between every known word and the unknown word. The unknown word is defined as identical with the known word that has the shortest distance to the unknown word. The successfulness depends mainly on the choice of the features.
Description
Citation
VYSTAVĚL, K. Rozpoznávač řeči s omezeným slovníkem [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2010.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Teleinformatika
Comittee
prof. Ing. Eva Gescheidtová, CSc. (předseda)
doc. Ing. Ivo Lattenberg, Ph.D. (místopředseda)
Ing. Václav Křepelka, Ph.D. (člen)
Ing. Jiří Prokeš, Ph.D. (člen)
doc. Ing. Petr Sysel, Ph.D. (člen)
Ing. Jakub Müller (člen)
doc. Ing. Jiří Hošek, Ph.D. (člen)
Date of acceptance
2010-06-15
Defence
Žádné dodatečné otázky.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení