Evaluace systému na rozpoznávání mluvčího na neznámých datech

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: In your work you focused on predicting the EER which is a calibration independent technique. Would you have some comments or results that would address the actual performance such as actual DCF as defined by NIST? In other words would you be able to estimate quality of calibration in an unsupervised way?cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorMatějka, Pavelen
dc.contributor.authorOdehnal, Ondřejen
dc.contributor.refereePlchot, Oldřichen
dc.date.created2022cs
dc.description.abstractTato práce je vystavěna nad moderním systémem pro rozpoznávání mluvčího (SID) založeného na x-vektorech. Cílem bakalářské práce je navrhnout a experimentálně vyhodnotit techniky pro evaluaci SID systému za použití audio nahrávek bez anotace tj. bez znalosti mluvčího. Pro tento účel je z každé nahrávky bez anotace vytvořen embedding. Ty se poté používají pro shlukování nahrávek a následné vytvoření pseudo-anotací. Na těchto anotacích se SID systém evaluuje pomocí equal error rate (EER) metriky. Za účelem vytvoření pseudo-anotací byly navrženy tyto shlukovací algoritmy učení bez učitele: K-means, Gaussian mixture models (GMM) a aglomerativní shlukování. Po testování vyšel jakožto nejlepší experimentální postup K-means se Silhouette metrikou, která používá kosinovou podobnost jako míru vzdálenosti. Nejlepší metoda dosáhla 5,72 % EER s referenčním EER = 5,15 %, které bylo spočítané se znalostí anotace na části datasetu SITW dev-core-core. Podobné výsledky byly získány na části datasetu SITW eval-core-core s odhadnutým EER = 5,86 % a referenčním 5,08 %. Rozdíl mezi hodnotami tvoří 0,57 % pro eval-core-core a 0, 78% pro dev-core-core. Další testy na NIST SRE16 a VoxCeleb1 datasetech byly provedeny za účelem ověření správnosti navrženého postupu. Obecně se dá říct, že navržený testovací postup měl chybu přibližně 1 %, což je poměrně dobrý výsledek pro algoritmus učení bez učitele.en
dc.description.abstractThe context of this thesis is the state-of-the-art system for speaker identification (SID) based on the deep nerual network with x-vector embeddings. This thesis aims to propose and experimentally assess several techniques for evaluating the SID system using unlabelled datasets. For this purpose, discriminative embedding is created for every recording in the dataset. These embeddings are used to cluster the recordings and thus create pseudo-labels corresponding to different clusters. The SID system evaluation is based on equal error rate (EER), which uses these pseudo-labels. We proposed several unsupervised learning algorithms to achieve this; K-means, Gaussian mixture models (GMM), and agglomerative hierarchical clustering (AHC). After thorough testing, the K-means model with the Silhouette value showed the best results. This method achieved an estimate of 5.72 % EER with the reference EER equal to 5.15 % on SITW dev-core-core. Similar results were observed on the SITW eval-core-core, where the estimated EER is equal to 5.86 % and the reference 5.08 %. The difference between estimated and reference EER is 0.57 % for the dev-core-core and 0.78 % for the eval-core-core. Another series of experiments were conducted on NIST SRE16 and VoxCeleb1 to verify robustness of the proposed method. Generally, the developed testing process had an estimated error of around 1 % in all test databases, an excellent result for an unsupervised learning technique.cs
dc.description.markAcs
dc.identifier.citationODEHNAL, O. Evaluace systému na rozpoznávání mluvčího na neznámých datech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.cs
dc.identifier.other145254cs
dc.identifier.urihttp://hdl.handle.net/11012/207380
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectrozpoznávání mluvčíhoen
dc.subjectverifikace mluvčíhoen
dc.subjectučení bez učiteleen
dc.subjectshlukováníen
dc.subjectevaluaceen
dc.subjectGMMen
dc.subjectAHCen
dc.subjectEERen
dc.subjectK-meansen
dc.subjectspeaker recognitioncs
dc.subjectspeech verificationcs
dc.subjectunsupervised learningcs
dc.subjectclusteringcs
dc.subjectevaluationcs
dc.subjectGMMcs
dc.subjectAHCcs
dc.subjectEERcs
dc.subjectelbow methodcs
dc.subjectK-meanscs
dc.titleEvaluace systému na rozpoznávání mluvčího na neznámých datechen
dc.title.alternativeUnsupervised Evaluation of Speaker Recognition Systemcs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2022-06-15cs
dcterms.modified2022-06-20-10:23:14cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid145254en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:42:31en
sync.item.modts2025.01.15 17:39:38en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.68 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-24991_v.pdf
Size:
85.89 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-24991_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-24991_o.pdf
Size:
87.09 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-24991_o.pdf
Loading...
Thumbnail Image
Name:
review_145254.html
Size:
1.46 KB
Format:
Hypertext Markup Language
Description:
file review_145254.html
Collections