Rozšíření pro pravděpodobnostní lineární diskriminační analýzu v rozpoznávání mluvčího
but.jazyk | angličtina (English) | |
but.program | Výpočetní technika a informatika | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Burget, Lukáš | en |
dc.contributor.author | Plchot, Oldřich | en |
dc.contributor.referee | Fousek, Petr | en |
dc.contributor.referee | McCree,, Alan | en |
dc.date.created | cs | |
dc.description.abstract | Tato práce se zabývá pravděpodobnostními modely pro automatické rozpoznávání řečníka. Podrobně analyzuje zejména pravděpodobnostní lineární diskriminační analýzu (PLDA), která modeluje nízkodimenzionální reprezentace promluv ve formě \acronym{i--vektorů}. Práce navrhuje dvě rozšíření v současnosti požívaného PLDA modelu. Nově navržený PLDA model s plným posteriorním rozložením modeluje neurčitost při generování i--vektorů. Práce také navrhuje nový diskriminativní přístup k trénování systému pro verifikaci řečníka, který je založený na PLDA. Pokud srovnáváme původní PLDA s modelem rozšířeným o modelování neurčitosti i--vektorů, výsledky dosažené s rozšířeným modelem dosahují až 20% relativního zlepšení při testech s krátkými nahrávkami. Pro delší testovací segmenty (více než jedna minuta) je zisk v přesnosti menší, nicméně přesnost nového modelu není nikdy menší než přesnost výchozího systému. Trénovací data jsou ale obvykle dostupná ve formě dostatečně dlouhých segmentů, proto v těchto případech použití nového modelu neposkytuje žádné výhody při trénování. Při trénování může být použit původní PLDA model a jeho rozšířená verze může být využita pro získání skóre v případě, kdy se bude provádět testování na krátkých segmentech řeči. Diskriminativní model je založen na klasifikaci dvojic i--vektorů do dvou tříd představujících oprávněný a neoprávněný soud (target a non-target trial). Funkcionální forma pro získání skóre pro každý pár je odvozena z PLDA a trénování je založeno na logistické regresi, která minimalizuje vzájemnou entropii mezi správným označením všech soudů a pravděpodobnostním označením soudů, které navrhuje systém. Výsledky dosažené s diskriminativně trénovaným klasifikátorem jsou podobné výsledkům generativního PLDA, ale diskriminativní systém prokazuje schopnost produkovat lépe kalibrované skóre. Tato schopnost vede k lepší skutečné přesnosti na neviděné evaluační sadě, což je důležitá vlastnost pro reálné použití. | en |
dc.description.abstract | This thesis deals with probabilistic models for automatic speaker verification. In particular, the Probabilistic Linear Discriminant Analysis (PLDA) model, which models i--vector representation of speech utterances, is analyzed in detail. The thesis proposes extensions to the standard state-of-the-art PLDA model. The newly proposed Full Posterior Distribution PLDA models the uncertainty associated with the i--vector generation process. A new discriminative approach to training the speaker verification system based on the~PLDA model is also proposed. When comparing the original PLDA with the model extended by considering the i--vector uncertainty, results obtained with the extended model show up to 20% relative improvement on tests with short segments of speech. As the test segments get longer (more than one minute), the performance gain of the extended model is lower, but it is never worse than the baseline. Training data are, however, usually available in the form of segments which are sufficiently long and therefore, in such cases, there is no gain from using the extended model for training. Instead, the training can be performed with the original PLDA model and the extended model can be used if the task is to test on the short segments. The discriminative classifier is based on classifying pairs of i--vectors into two classes representing target and non-target trials. The functional form for obtaining the score for every i--vector pair is derived from the PLDA model and training is based on the logistic regression minimizing the cross-entropy error function between the correct labeling of all trials and the probabilistic labeling proposed by the system. The results obtained with discriminatively trained system are similar to those obtained with generative baseline, but the discriminative approach shows the ability to output better calibrated scores. This property leads to a better actual verification performance on an unseen evaluation set, which is an important feature for real use scenarios. | cs |
dc.description.mark | P | cs |
dc.identifier.citation | PLCHOT, O. Rozšíření pro pravděpodobnostní lineární diskriminační analýzu v rozpoznávání mluvčího [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. . | cs |
dc.identifier.other | 99816 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/63247 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | rozpoznávání mluvčího | en |
dc.subject | směs gaussovských rozložení | en |
dc.subject | modelování v podprostoru parametrů | en |
dc.subject | i--vektor | en |
dc.subject | pravděpodobnostní lineární diskriminační analýza | en |
dc.subject | diskriminativní trénování | en |
dc.subject | Speaker Recognition | cs |
dc.subject | Gaussian Mixture Model | cs |
dc.subject | Subspace Modeling | cs |
dc.subject | i--vector | cs |
dc.subject | Probabilistic Linear Discriminant Analysis | cs |
dc.subject | Discriminative Training | cs |
dc.title | Rozšíření pro pravděpodobnostní lineární diskriminační analýzu v rozpoznávání mluvčího | en |
dc.title.alternative | Extensions to Probabilistic Linear Discriminant Analysis for Speaker Recognition | cs |
dc.type | Text | cs |
dc.type.driver | doctoralThesis | en |
dc.type.evskp | dizertační práce | cs |
dcterms.modified | 2020-05-10-17:46:42 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 99816 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.27 12:12:01 | en |
sync.item.modts | 2025.01.17 12:39:23 | en |
thesis.discipline | Výpočetní technika a informatika | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Doktorský | cs |
thesis.name | Ph.D. | cs |
Files
Original bundle
1 - 5 of 6
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1.7 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- thesis-1.pdf
- Size:
- 342.58 KB
- Format:
- Adobe Portable Document Format
- Description:
- thesis-1.pdf
Loading...
- Name:
- Posudek-Vedouci prace-347_s1.pdf
- Size:
- 661.67 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-347_s1.pdf
Loading...
- Name:
- Posudek-Oponent prace-347_o1.pdf
- Size:
- 30.46 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-347_o1.pdf
Loading...
- Name:
- Posudek-Oponent prace-347_o2.pdf
- Size:
- 56.47 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-347_o2.pdf