Optimalizace modelování gaussovských směsí v podprostorech a jejich skórování v rozpoznávání mluvčího
but.committee | cs | |
but.defence | cs | |
but.jazyk | angličtina (English) | |
but.program | Výpočetní technika a informatika | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Burget, Lukáš | en |
dc.contributor.author | Glembek, Ondřej | en |
dc.contributor.referee | Brummer, Niko | en |
dc.contributor.referee | Campbell,, William | en |
dc.date.accessioned | 2019-04-04T07:22:00Z | |
dc.date.available | 2019-04-04T07:22:00Z | |
dc.date.created | cs | |
dc.description.abstract | Tato práce pojednává o modelování v podprostoru parametrů směsí gaussovských rozložení pro rozpoznávání mluvčího. Práce se skládá ze tří částí. První část je věnována skórovacím metodám při použití sdružené faktorové analýzy k modelování mluvčího. Studované metody se liší převážně v tom, jak se vypořádávají s variabilitou kanálu testovacích nahrávek. Metody jsou prezentovány v souvislosti s obecnou formou funkce pravděpodobnosti pro sdruženou faktorovou analýzu a porovnány jak z hlediska přesnosti, tak i z hlediska rychlosti. Je zde prokázáno, že použití lineární aproximace pravděpodobnostní funkce dává výsledky srovnatelné se standardním vyhodnocením pravděpodobnosti při dramatickém zjednodušení matematického zápisu a tím i zvýšení rychlosti vyhodnocování. Druhá část pojednává o extrakci tzv. i-vektorů, tedy nízkodimenzionálních reprezentací nahrávek. Práce prezentuje dva přístupy ke zjednodušení extrakce. Motivací pro tuto část bylo jednak urychlení extrakce i-vektorů, jednak nasazení této úspěšné techniky na jednoduchá zařízení typu mobilní telefon, a také matematické zjednodušení umožněňující využití numerických optimalizačních metod pro diskriminativní trénování. Výsledky ukazují, že na dlouhých nahrávkách je zrychlení vykoupeno poklesem úspěšnosti rozpoznávání, avšak na krátkých nahrávkách, kde je úspěšnost rozpoznávání nízká, se rozdíly úspěšnosti stírají. Třetí část se zabývá diskriminativním trénováním v oblasti rozpoznávání mluvčího. Jsou zde shrnuty poznatky z předchozích prací zabývajících se touto problematikou. Kapitola navazuje na poznatky z předchozích dvou částí a pojednává o diskriminativním trénování parametrů extraktoru i-vektorů. Výsledky ukazují, že při klasickém trénování extraktoru a následném diskriminatviním přetrénování tyto metody zvyšují úspěšnost. | en |
dc.description.abstract | This thesis deals with Gaussian Mixture Subspace Modeling in automatic speaker recognition. The thesis consists of three parts. In the first part, Joint Factor Analysis (JFA) scoring methods are studied. The methods differ mainly in how they deal with the channel of the tested utterance. The general JFA likelihood function is investigated and the methods are compared both in terms of accuracy and speed. It was found that linear approximation of the log-likelihood function gives comparable results to the full log-likelihood evaluation while simplyfing the formula and dramatically reducing the computation speed. In the second part, i-vector extraction is studied and two simplification methods are proposed. The motivation for this part was to allow for using the state-of-the-art technique on small scale devices and to setup a simple discriminative-training system. It is shown that, for long utterances, while sacrificing the accuracy, we can get very fast and compact i-vector systems. On a short-utterance(5-second) task, the results of the simplified systems are comparable to the full i-vector extraction. The third part deals with discriminative training in automatic speaker recognition. Previous work in the field is summarized and---based on the knowledge from the earlier chapters of this work---discriminative training of the i-vector extractor parameters is proposed. It is shown that discriminative re-training of the i-vector extractor can improve the system if the initial estimation is computed using the generative approach. | cs |
dc.description.mark | P | cs |
dc.identifier.citation | GLEMBEK, O. Optimalizace modelování gaussovských směsí v podprostorech a jejich skórování v rozpoznávání mluvčího [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. . | cs |
dc.identifier.other | 99790 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/63270 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | rozpoznávání mluvčího | en |
dc.subject | směs gaussovských rozložení | en |
dc.subject | modelování v podprostoru parametrů | en |
dc.subject | i-vector | en |
dc.subject | sdružená faktorová analýza | en |
dc.subject | diskriminativní trénování | en |
dc.subject | Speaker Recognition | cs |
dc.subject | Gaussian Mixture Model | cs |
dc.subject | Subspace Modeling | cs |
dc.subject | i-vector | cs |
dc.subject | Joint Factor Analysis | cs |
dc.subject | Discriminative Training | cs |
dc.title | Optimalizace modelování gaussovských směsí v podprostorech a jejich skórování v rozpoznávání mluvčího | en |
dc.title.alternative | Optimization of Gaussian Mixture Subspace Models and Related Scoring Algorithms in Speaker Verification | cs |
dc.type | Text | cs |
dc.type.driver | doctoralThesis | en |
dc.type.evskp | dizertační práce | cs |
dcterms.dateAccepted | 2012-11-13 | cs |
dcterms.modified | 2020-05-10-17:46:39 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 99790 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2021.11.22 23:18:33 | en |
sync.item.modts | 2021.11.22 22:20:39 | en |
thesis.discipline | Výpočetní technika a informatika | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Doktorský | cs |
thesis.name | Ph.D. | cs |
Files
Original bundle
1 - 5 of 5
Loading...
- Name:
- final-thesis.pdf
- Size:
- 1 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-209_s1.pdf
- Size:
- 89.75 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-209_s1.pdf
Loading...
- Name:
- Posudek-Oponent prace-209_o1.pdf
- Size:
- 80.04 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-209_o1.pdf
Loading...
- Name:
- Posudek-Oponent prace-209_o2.pdf
- Size:
- 128.3 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-209_o2.pdf
Loading...
- Name:
- review_99790.html
- Size:
- 1.74 KB
- Format:
- Hypertext Markup Language
- Description:
- review_99790.html