Rozšíření pro pravděpodobnostní lineární diskriminační analýzu v rozpoznávání mluvčího

but.jazykangličtina (English)
but.programVýpočetní technika a informatikacs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Lukášen
dc.contributor.authorPlchot, Oldřichen
dc.contributor.refereeFousek, Petren
dc.contributor.refereeMcCree,, Alanen
dc.date.createdcs
dc.description.abstractTato práce se zabývá pravděpodobnostními modely pro automatické rozpoznávání řečníka. Podrobně analyzuje zejména pravděpodobnostní lineární diskriminační analýzu (PLDA), která modeluje nízkodimenzionální reprezentace promluv ve formě \acronym{i--vektorů}.  Práce navrhuje dvě rozšíření v současnosti požívaného PLDA modelu. Nově navržený PLDA model s plným posteriorním rozložením  modeluje neurčitost při generování i--vektorů. Práce také navrhuje nový diskriminativní přístup k trénování systému pro verifikaci řečníka, který je založený na PLDA. Pokud srovnáváme původní PLDA s modelem rozšířeným o modelování  neurčitosti i--vektorů, výsledky dosažené s rozšířeným modelem dosahují až 20% relativního zlepšení při testech s krátkými nahrávkami. Pro delší  testovací segmenty  (více než jedna minuta) je zisk v přesnosti  menší, nicméně přesnost nového modelu není nikdy menší než přesnost výchozího systému.  Trénovací data jsou ale obvykle dostupná ve formě dostatečně dlouhých segmentů, proto v těchto případech použití nového modelu neposkytuje žádné výhody při trénování. Při trénování může být použit původní PLDA model a jeho rozšířená verze může být využita pro získání skóre v  případě, kdy se bude provádět testování na krátkých segmentech řeči. Diskriminativní model je založen na klasifikaci dvojic i--vektorů do dvou tříd představujících oprávněný a neoprávněný soud (target a non-target trial). Funkcionální forma pro získání skóre pro každý pár je odvozena z PLDA a trénování je založeno na logistické regresi, která minimalizuje vzájemnou entropii mezi správným označením všech soudů a pravděpodobnostním označením soudů, které navrhuje systém. Výsledky dosažené s diskriminativně trénovaným klasifikátorem jsou podobné výsledkům generativního PLDA, ale diskriminativní systém prokazuje schopnost produkovat lépe kalibrované skóre. Tato schopnost vede k lepší skutečné přesnosti na neviděné evaluační sadě, což je důležitá vlastnost pro reálné použití.en
dc.description.abstractThis thesis deals with probabilistic models for automatic speaker verification. In particular, the Probabilistic Linear Discriminant Analysis (PLDA) model, which models i--vector representation of speech utterances, is analyzed in detail. The thesis proposes extensions to the standard state-of-the-art PLDA model. The newly proposed Full Posterior Distribution PLDA  models the uncertainty associated with the i--vector generation process. A new discriminative approach to training the speaker verification system based on the~PLDA model is also proposed. When comparing the original PLDA with the model extended by considering the i--vector uncertainty, results obtained with the extended model show up to 20% relative improvement on tests with short segments of speech. As the test segments get longer (more than one minute), the performance gain of the extended model is lower, but it is never worse than the baseline. Training data are, however, usually  available in the form of segments which are sufficiently long and therefore, in such cases, there is no gain from using the extended model  for training. Instead, the training can be performed with the original PLDA model and the extended model can be used if the task is to test on the short segments. The discriminative classifier is based on classifying pairs of i--vectors into two classes representing target and non-target trials. The functional form for obtaining the score for every i--vector pair is derived from the  PLDA model and training is based on the logistic regression minimizing  the cross-entropy error function  between the correct labeling of all trials and the probabilistic labeling proposed by the system. The results obtained with discriminatively trained system are similar to those obtained with generative baseline, but the discriminative approach shows the ability to output better calibrated scores. This property leads to a  better actual verification performance on an unseen evaluation set, which is an important feature for real use scenarios.cs
dc.description.markPcs
dc.identifier.citationPLCHOT, O. Rozšíření pro pravděpodobnostní lineární diskriminační analýzu v rozpoznávání mluvčího [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .cs
dc.identifier.other99816cs
dc.identifier.urihttp://hdl.handle.net/11012/63247
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectrozpoznávání mluvčíhoen
dc.subjectsměs gaussovských rozloženíen
dc.subjectmodelování v podprostoru parametrůen
dc.subjecti--vektoren
dc.subjectpravděpodobnostní lineární diskriminační analýzaen
dc.subjectdiskriminativní trénováníen
dc.subjectSpeaker Recognitioncs
dc.subjectGaussian Mixture Modelcs
dc.subjectSubspace Modelingcs
dc.subjecti--vectorcs
dc.subjectProbabilistic Linear Discriminant Analysiscs
dc.subjectDiscriminative Trainingcs
dc.titleRozšíření pro pravděpodobnostní lineární diskriminační analýzu v rozpoznávání mluvčíhoen
dc.title.alternativeExtensions to Probabilistic Linear Discriminant Analysis for Speaker Recognitioncs
dc.typeTextcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
dcterms.modified2020-05-10-17:46:42cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid99816en
sync.item.dbtypeZPen
sync.item.insts2025.03.27 12:12:01en
sync.item.modts2025.01.17 12:39:23en
thesis.disciplineVýpočetní technika a informatikacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelDoktorskýcs
thesis.namePh.D.cs
Files
Original bundle
Now showing 1 - 5 of 6
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.7 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
thesis-1.pdf
Size:
342.58 KB
Format:
Adobe Portable Document Format
Description:
thesis-1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-347_s1.pdf
Size:
661.67 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-347_s1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-347_o1.pdf
Size:
30.46 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-347_o1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-347_o2.pdf
Size:
56.47 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-347_o2.pdf
Collections