Far-Field Speech Recognition
but.committee | prof. Ing. Tomáš Vojnar, Ph.D. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (místopředseda) prof. RNDr. Milan Češka, CSc. (člen) Ing. Martin Hrubý, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) doc. Ing. Oldřich Trenz, Ph.D. (člen) | cs |
but.defence | Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: 1) Why is there such a bug difference when the background noise and reverberation are created "artificially" compared to real recordings? 2) The MVDR condition v_sd[h_n0] = 0 is very strong. Would it help if the speech distortion was only minimized instead of removed completely? 3) What is the largest delay (angle) that MVDR can efficiently deal with? 4) How did you select the best channel of your reference (single-channel) system? 5) Would it improve the overall efficiency if unvoiced frames were also excluded from the input signal? 6) What is the objective function of the weights-estimating DNN? | cs |
but.jazyk | angličtina (English) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Černocký, Jan | en |
dc.contributor.author | Žmolíková, Kateřina | en |
dc.contributor.referee | Malenovský, Vladimír | en |
dc.date.created | 2016 | cs |
dc.description.abstract | Systémy rozpoznávání řeči v dnešní době dosahují poměrně vysoké úspěšnosti. V případě řeči, která je snímána vzdáleným mikrofonem a je tak narušena množstvím šumu a dozvukem (reverberací), je ale přesnost rozpoznávání značně zhoršena. Tento problém je možné zmírnit využitím mikrofonních polí. Tato práce se zabývá technikami, které umožňují kombinovat signály z více mikrofonů tak, aby byla zlepšena kvalita výsledného signálu a tedy i přesnost rozpoznávání. Práce nejprve shrnuje teorii rozpoznávání řeči a uvádí nejpoužívanější algoritmy pro zpracování mikrofonních polí. Následně jsou demonstrovány a analyzovány výsledky použití dvou metod pro beamforming a metody dereverberace vícekanálových signálů. Na závěr je vyzkoušen alternativní způsob beamformingu za použití neuronových sítí. | en |
dc.description.abstract | The accuracy of speech recognition systems today is very high. However, when speech is captured by a far-field microphone, it can be severely distorted by noise and reverberation and the performance of speech recognition degrades significantly. One way to alleviate this problem is to use microphone arrays. This thesis addresses the methods of combining signals from multiple microphones to improve the quality of the signal and final speech recognition accuracy. It summarizes the theory of speech recognition and the most popular techniques for array processing. Afterwards, it demonstrates and analyzes the results obtained by two different methods for beamforming and a method for dereverberation of multichannel signals. Finally, it examines an alternative way of performing beamforming using neural networks. | cs |
dc.description.mark | A | cs |
dc.identifier.citation | ŽMOLÍKOVÁ, K. Far-Field Speech Recognition [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016. | cs |
dc.identifier.other | 96580 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/61823 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | rozpoznávání řeči | en |
dc.subject | mikrofonní pole | en |
dc.subject | beamforming | en |
dc.subject | dereverberace | en |
dc.subject | speech recognition | cs |
dc.subject | microphone arrays | cs |
dc.subject | beamforming | cs |
dc.subject | dereverberation | cs |
dc.title | Far-Field Speech Recognition | en |
dc.title.alternative | Far-Field Speech Recognition | cs |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2016-06-22 | cs |
dcterms.modified | 2020-05-10-16:12:43 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 96580 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 15:21:40 | en |
sync.item.modts | 2025.01.15 11:59:47 | en |
thesis.discipline | Matematické metody v informačních technologiích | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 2.38 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-18867_v.pdf
- Size:
- 86.63 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-18867_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-18867_o.pdf
- Size:
- 86.73 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-18867_o.pdf
Loading...
- Name:
- review_96580.html
- Size:
- 1.43 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_96580.html