Microphone Arrays for Speaker Recognition

but.committeeprof. Dr. Ing. Pavel Zemčík, dr. h. c. (předseda) prof. Ing. Adam Herout, Ph.D. (místopředseda) doc. Ing. Vítězslav Beran, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) prof. Ing. Jiří Sochor, CSc. (člen) Ing. Igor Szőke, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Prof. Zemčík vznesl dotaz na předzpracování dat a možnosti vyhodnocení na simulovaných datech. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Dokážete posoudit vliv počtu mikrofonů v mikofonním poli na kvalitu rozpoznávání/lokalizace mluvčího? Jak moc je časově náročné zpracování vícekanálových dat oproti jednokanálovým datům vzhledem k výpočetní náročností ostatních částí natrénovaného systému?cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorČernocký, Janen
dc.contributor.authorMošner, Ladislaven
dc.contributor.refereePlchot, Oldřichen
dc.date.created2017cs
dc.description.abstractTato diplomová práce se zabývá problematikou vzdáleného rozpoznávání mluvčích. V případě dat zachycených odlehlým mikrofonem se přesnost standardního rozpoznávání značně snižuje, proto jsem navrhl dva přístupy pro zlepšení výsledků. Prvním z nich je použití mikrofonního pole (záměrně rozestavené sady mikrofonů), které je schopné nasměrovat virtuální "paprsek" na pozici řečníka. Dále jsem prováděl adaptaci komponent systému (PLDA skórování a extraktoru i-vektorů). S využitím simulace pokojových podmínek jsem syntetizoval trénovací a testovací data ze standardní datové sady NIST 2010. Ukázal jsem, že obě techniky a jejich kombinace vedou k výraznému zlepšení výsledků. Dále jsem se zabýval společným určením identity a pozice mluvčího. Zatímco výsledky ve venkovním simulovaném prostředí (bez ozvěn) jsou slibné, výsledky z interiéru (s ozvěnami) jsou smíšené a vyžadují další prozkoumání. Na závěr jsem mohl systémem vyhodnotit omezené množství reálných dat získaných přehráním a záznamem nahrávek ve skutečné místnosti. Zatímco výsledky pro mužské nahrávky odpovídají simulaci, výsledky pro ženské nahrávky nejsou přesvědčivé a vyžadují další analýzu.en
dc.description.abstractThis thesis addresses the problem of remote speaker recognition. The accuracy of standard speaker recognition decreases considerably in the presence of far-field data, therefore, we devised two strategies to improve the results. First, we employed a microphone array (purposely positioned set of microphones) that is able to steer a virtual "beam" to the position of the speaker. We also performed system adaptation of different parts of the system (PLDA scoring and i-vector extraction). We have synthesized our training and test data from the standard NIST 2010 data by room simulation and we have shown that both techniques and their combination significantly improve the results. We have also dealt with joint speaker identity and position estimation. While the results in simulated outdoor environment (reverberation-free) are encouraging, the results from interiors (with reverberation) are mixed and require further investigation. Finally, we were able to test our system on a limited amount of real re-transmitted data. While the results for male speakers match the simulation, the results for females are not convincing and need further analysis.cs
dc.description.markAcs
dc.identifier.citationMOŠNER, L. Microphone Arrays for Speaker Recognition [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2017.cs
dc.identifier.other106181cs
dc.identifier.urihttp://hdl.handle.net/11012/69497
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectRozpoznávání mluvčíhoen
dc.subjectmikrofonní poleen
dc.subjectbeamformingen
dc.subjectlokalizace mluvčíhoen
dc.subjecti-vektoren
dc.subjectimpulsní odezva místnostien
dc.subjectSpeaker recognitioncs
dc.subjectmicrophone arrayscs
dc.subjectbeamformingcs
dc.subjectspeaker localizationcs
dc.subjecti-vectorcs
dc.subjectroom impulse responsecs
dc.titleMicrophone Arrays for Speaker Recognitionen
dc.title.alternativeMicrophone Arrays for Speaker Recognitioncs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2017-06-22cs
dcterms.modified2020-05-10-16:12:50cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid106181en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 15:24:32en
sync.item.modts2025.01.15 16:30:11en
thesis.disciplinePočítačová grafika a multimédiacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.95 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-19199_v.pdf
Size:
87.16 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-19199_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-19199_o.pdf
Size:
88.29 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-19199_o.pdf
Loading...
Thumbnail Image
Name:
review_106181.html
Size:
1.44 KB
Format:
Hypertext Markup Language
Description:
file review_106181.html
Collections