Microphone Arrays for Speaker Recognition

Tato diplomová práce se zabývá problematikou vzdáleného rozpoznávání mluvčích. V případě dat zachycených odlehlým mikrofonem se přesnost standardního rozpoznávání značně snižuje, proto jsem navrhl dva přístupy pro zlepšení výsledků. Prvním z nich je použití mikrofonního pole (záměrně rozestavené sady mikrofonů), které je schopné nasměrovat virtuální "paprsek" na pozici řečníka. Dále jsem prováděl adaptaci komponent systému (PLDA skórování a extraktoru i-vektorů). S využitím simulace pokojových podmínek jsem syntetizoval trénovací a testovací data ze standardní datové sady NIST 2010. Ukázal jsem, že obě techniky a jejich kombinace vedou k výraznému zlepšení výsledků. Dále jsem se zabýval společným určením identity a pozice mluvčího. Zatímco výsledky ve venkovním simulovaném prostředí (bez ozvěn) jsou slibné, výsledky z interiéru (s ozvěnami) jsou smíšené a vyžadují další prozkoumání. Na závěr jsem mohl systémem vyhodnotit omezené množství reálných dat získaných přehráním a záznamem nahrávek ve skutečné místnosti. Zatímco výsledky pro mužské nahrávky odpovídají simulaci, výsledky pro ženské nahrávky nejsou přesvědčivé a vyžadují další analýzu.
This thesis addresses the problem of remote speaker recognition. The accuracy of standard speaker recognition decreases considerably in the presence of far-field data, therefore, we devised two strategies to improve the results. First, we employed a microphone array (purposely positioned set of microphones) that is able to steer a virtual "beam" to the position of the speaker. We also performed system adaptation of different parts of the system (PLDA scoring and i-vector extraction). We have synthesized our training and test data from the standard NIST 2010 data by room simulation and we have shown that both techniques and their combination significantly improve the results. We have also dealt with joint speaker identity and position estimation. While the results in simulated outdoor environment (reverberation-free) are encouraging, the results from interiors (with reverberation) are mixed and require further investigation. Finally, we were able to test our system on a limited amount of real re-transmitted data. While the results for male speakers match the simulation, the results for females are not convincing and need further analysis.

Keywords

Rozpoznávání mluvčího, mikrofonní pole, beamforming, lokalizace mluvčího, i-vektor, impulsní odezva místnosti, Speaker recognition, microphone arrays, beamforming, speaker localization, i-vector, room impulse response

Citation

MOŠNER, L. Microphone Arrays for Speaker Recognition [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2017.

Language of document

en

Study field

Počítačová grafika a multimédia

Comittee

prof. Dr. Ing. Pavel Zemčík, dr. h. c. (předseda) prof. Ing. Adam Herout, Ph.D. (místopředseda) doc. Ing. Vítězslav Beran, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) prof. Ing. Jiří Sochor, CSc. (člen) Ing. Igor Szőke, Ph.D. (člen)

Date of acceptance

2017-06-22

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Prof. Zemčík vznesl dotaz na předzpracování dat a možnosti vyhodnocení na simulovaných datech. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Dokážete posoudit vliv počtu mikrofonů v mikofonním poli na kvalitu rozpoznávání/lokalizace mluvčího? Jak moc je časově náročné zpracování vícekanálových dat oproti jednokanálovým datům vzhledem k výpočetní náročností ostatních částí natrénovaného systému?

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení