Robustní rozpoznávání mluvčího

but.committeeprof. Dr. Ing. Jan Černocký (předseda) prof. Ing. Martin Drahanský, Ph.D. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) doc. Ing. Michal Španěl, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře (B). Otázky u obhajoby: Jaký účel má L2-normalizace i-vektorů před jejich vstupem do PLDA, je zde nutná? Jaký je účel využití UBM-GMM v SRE systému? Vysvětlete z čeho se z nahrávky extrahuje i-vektor (každý rámec, segment souvislé řeči z VAD, celá nahrávka). Jaká je výhoda použití i-vektoru proti supervektoru?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorMatějka, Pavelcs
dc.contributor.authorProfant, Jáncs
dc.contributor.refereeNovotný, Ondřejcs
dc.date.created2016cs
dc.description.abstractCílem této práce je analyzovat úspěšnost systému rozpoznávaní mluvčího na nahrávkach degradovaných různym telefonním přenosovým kanálem. Použili jsme dva způsoby extrakce příznaků - Mel Frequency Cepstral Coefficients (MFCC) a moderní systém, který spojuje Bottleneck příznaky spolu s MFCC. Systém rozpoznávání mluvčího je založen na i-vektorech a Pravděpodobnostní Lineární Diskriminační Analýze (PLDA). Porovnali jsme scenáře, kde je PLDA trénovaná jen na čisté řeči, poté systém kde jsme přidali data s hlukem a reverberací a nakonec, data degradované kodekem. Vyhodnotili jsem systémy za rovnakých podmínek (data ze stejného kodeku byli také v trénování PLDA) a také za rozdílnych podmínek (data ze stejného kodeku resp. rodiny kodeků nebyli v trénování PLDA). Také jsme experimentovali s nedávno představenou technikou na adaptaci kanálu - Within-class Covariance Correction (WCC). Můžeme jednoznačně vidět zlepšení úspěšnosti přidáním degradovaných dat do PLDA resp. WCC (s přibližně stejným výsledkem) pro obě naše testované podmínky.cs
dc.description.abstractThe goal of this paper is to analyze the impact of codec degraded speech on a state-ofthe-art speaker recognition system. Two feature extraction techniques are analyzed - Mel Frequency Cepstral Coefficients (MFCC) and the state-of-the-art system using Bottleneck features together with MFCC. Speaker recognition system is based on i-vector and Probabilistic Linear Discriminant Analysis (PLDA). We compared scenarios where PLDA is trained only on clean data, then system where we added also noise and reverberant data, and at last, codec degraded speech. We evaluated the systems on the matched conditions (data from the same codec are seen with PLDA) and also mismatched conditions (PLDA does not see any data from the tested codec). We experimented also with recently introduced technique for channel adaptation - Within-class Covariance Correction (WCC). We can see clear benefit of adding transcoded data to PLDA or WCC (with approximately same gain) for both tested conditions (matched and mismatched).en
dc.description.markBcs
dc.identifier.citationPROFANT, J. Robustní rozpoznávání mluvčího [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016.cs
dc.identifier.other96479cs
dc.identifier.urihttp://hdl.handle.net/11012/62195
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectrozpoznávání mluvčíhocs
dc.subjectPravděpodobnostní Lineární Diskriminační Analýzacs
dc.subjectWithin-class Covariance Correctioncs
dc.subjecti-vektorcs
dc.subjectspeaker verificationen
dc.subjectProbabilistic Linear Discriminant Analysisen
dc.subjectWithin-class Covariance Correctionen
dc.subjecti-vectoren
dc.titleRobustní rozpoznávání mluvčíhocs
dc.title.alternativeRobust Speaker Verificationen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2016-06-15cs
dcterms.modified2020-05-10-16:12:36cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid96479en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 18:57:39en
sync.item.modts2025.01.15 23:59:07en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-18679_v.pdf
Size:
85.62 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-18679_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-18679_o.pdf
Size:
89.62 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-18679_o.pdf
Loading...
Thumbnail Image
Name:
review_96479.html
Size:
1.43 KB
Format:
Hypertext Markup Language
Description:
file review_96479.html
Collections