Využití informací o nejistotě v ověřování mluvčího a diarizaci mluvčích

but.committeeprof. Ing. Tomáš Vojnar, Ph.D. (předseda) doc. RNDr. Tomáš Brázdil, Ph.D. (člen) prof. Mgr. Pavel Rajmic, Ph.D. (člen) doc. Ing. Václav Šmídl, Ph.D. (člen) Jesus Antonio Villalba Lopez (člen)cs
but.defenceThe student presented the goals and results, which she achieved within the solution of the dissertation. The student has competently answered the questions of the committee members and reviewers. The discussion is recorded on the discussion sheets, which are attached to the protocol. Number of discussion sheets: 2. The committee has agreed unanimously that the student has fulfilled requirements for being awarded the academic title Ph.D. The committee recommends awarding the thesis the deans prize.cs
but.jazykangličtina (English)
but.programVýpočetní technika a informatikacs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Lukášen
dc.contributor.authorSilnova, Annaen
dc.contributor.refereeŠmídl, Václaven
dc.contributor.refereeVillalba Lopez, Jesus Antonioen
dc.date.accessioned2023-01-17T07:56:19Z
dc.date.available2023-01-17T07:56:19Z
dc.date.created2022cs
dc.description.abstractTato práce se zabývá dvěma modely, které umožňují využít informace o nejistotě v úlohách automatického ověřování mluvčího a diarizace mluvčích. První model, který zvažujeme, je modifikací široce používané gaussovské pravděpodobnostní lineární diskriminační analýzy (G-PLDA), modelující rozložení vektorových reprezentací promluv nazývaných embeddingy. V G-PLDA se předpokládá, že embeddingy jsou generovány přidáním šumového vektoru navzorkovaného z Gaussova rozložení k vektoru reprezentujícímu mluvčího. Ukazujeme, že za předpokladu, že šum byl místo toho vzorkován ze Studentova T-rozdělení, model PLDA (tuto verzi nazýváme PLDA s těžkým chvostem, heavy-tail, HT-PLDA) může při rozhodnutí o ověření mluvčího využít informace o nejistotě. Náš model je koncepčně podobný modelu HT-PLDA definovanému Kennym et al. v roce 2010, ale jak ukazujeme v této práci, umožňuje rychlé skórování, zatímco původní definice HT-PLDA je značně časové a výpočetně náročná. Představujeme algoritmus pro trénování naší verze HT-PLDA jako generativního modelu a zvažujeme rovněž různé strategie diskriminativního trénování parametrů tohoto modelu. Generativně a diskriminativně trénovanou HT-PLDA testujeme na úloze ověřování mluvčího. Výsledky naznačují, že HT-PLDA funguje podobně jako standardní G-PLDA, přičemž má výhodu v odolnosti vůči změnám v předzpracování dat. Experimenty s diarizací mluvčích ukazují, že HT-PLDA poskytuje nejen lepší výsledky než základní G-PLDA, ale skóre logaritmického poměru věrohodností (log-likelihood ratio, LLR) produkovaná tímto modelem jsou lépe kalibrována. Ve druhém modelu nepovažujeme (na rozdíl od HT-PLDA) embeddingy za pozorovaná data. Místo toho jsou v tomto modelu embeddingy normálně rozložené skryté proměnné. Přesnost (precision) embeddingů nese informaci o kvalitě řečového segmentu: u čistých dlouhých segmentů by přesnost měla být vysoká a u krátkých a zašuměných promluv by měla být nízká. Ukazujeme, jak lze takové pravděpodobnostní embeddingy začlenit do skórování založeného na G-PLDA, a jak parametry skrytého embeddingu ovlivňují jeho vliv při výpočtu věrohodností s tímto modelem. V experimentech demonstrujeme, jak lze využít existující extraktor embeddingů založený na neuronové síti (NN) k produkci nikoli embeddingu, ale parametrů pravděpodobnostního rozložení embeddingu. Pravděpodobnostní embeddingy testujeme na úloze diarizace mluvčích. Výsledky ukazují, že tento model poskytuje dobře kalibrovaná skóre LLR umožňující lepší diarizaci, pokud není k dispozici vývojová datová sada pro ladění shlukovacího algoritmu.en
dc.description.abstractThis thesis considers two models allowing to utilize uncertainty information in the tasks of Automatic Speaker Verification and Speaker Diarization. The first model we consider is a modification of the widely-used Gaussian Probabilistic Linear Discriminant Analysis (G-PLDA) that models the distribution of the vector utterance representations called embeddings. In G-PLDA, the embeddings are assumed to be generated by adding a noise vector sampled from a Gaussian distribution to a speakerdependent vector. We show that when assuming that the noise was instead sampled from a Student's T-distribution, the PLDA model (we call this version heavy-tailed PLDA) can use the uncertainty information when making the verification decisions. Our model is conceptually similar to the HT-PLDA model defined by Kenny et al. in 2010, but, as we show in this thesis, it allows for fast scoring, while the original HT-PLDA definition requires considerable time and computation resources for scoring. We present the algorithm to train our version of HT-PLDA as a generative model. Also, we consider various strategies for discriminatively training the parameters of the model. We test the performance of generatively and discriminatively trained HT-PLDA on the speaker verification task. The results indicate that HT-PLDA performs on par with the standard G-PLDA while having the advantage of being more robust against variations in the data pre-processing. Experiments on the speaker diarization demonstrate that the HT-PLDA model not only provides better performance than the G-PLDA baseline model but also has the advantage of producing better-calibrated Log-Likelihood Ratio (LLR) scores. In the second model, unlike in HT-PLDA, we do not consider the embeddings as the observed data. Instead, in this model, the embeddings are normally distributed hidden variables. The embedding precision carries the information about the quality of the speech segment: for clean long segments, the precision should be high, and for short and noisy utterances, it should be low. We show how such probabilistic embeddings can be incorporated into the G-PLDA framework and how the parameters of the hidden embedding influence its impact when computing the likelihood with this model. In the experiments, we demonstrate how to utilize an existing neural network (NN) embedding extractor to provide not embeddings but parameters of probabilistic embedding distribution. We test the performance of the probabilistic embeddings model on the speaker diarization task. The results demonstrate that this model provides well-calibrated LLR scores allowing for better diarization when no development dataset is available to tune the clustering algorithm.cs
dc.description.markPcs
dc.identifier.citationSILNOVA, A. Využití informací o nejistotě v ověřování mluvčího a diarizaci mluvčích [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.cs
dc.identifier.other150755cs
dc.identifier.urihttp://hdl.handle.net/11012/208752
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectOvěřováníí mluvčíhoen
dc.subjectdiarizace mluvčíchen
dc.subjectpravděpodobnostní lineární diskriminační analýzaen
dc.subjectšíření nejistotyen
dc.subjectdiskriminativní trénováníen
dc.subjectSpeaker Verificationcs
dc.subjectSpeaker Diarizationcs
dc.subjectProbabilistic Linear Discriminant Analysiscs
dc.subjectUncertainty Propagationcs
dc.subjectDiscriminative Trainingcs
dc.titleVyužití informací o nejistotě v ověřování mluvčího a diarizaci mluvčíchen
dc.title.alternativeExploiting Uncertainty Information in Speaker Verification and Diarizationcs
dc.typeTextcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
dcterms.dateAccepted2022-12-20cs
dcterms.modified2023-01-04-11:20:03cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid150755en
sync.item.dbtypeZPen
sync.item.insts2023.01.17 08:56:19en
sync.item.modts2023.01.17 08:12:33en
thesis.disciplineVýpočetní technika a informatikacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelDoktorskýcs
thesis.namePh.D.cs
Files
Original bundle
Now showing 1 - 5 of 5
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.53 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-1514_s1.pdf
Size:
111.51 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-1514_s1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-1514_o1.pdf
Size:
149.14 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-1514_o1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-1514_o2.pdf
Size:
148.42 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-1514_o2.pdf
Loading...
Thumbnail Image
Name:
review_150755.html
Size:
1.7 KB
Format:
Hypertext Markup Language
Description:
review_150755.html
Collections