but.committee	prof. Dr. Ing. Jan Černocký (předseda) prof. Ing. Martin Drahanský, Ph.D. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) doc. Ing. Michal Španěl, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře (B). Otázky u obhajoby: Jaký účel má L2-normalizace i-vektorů před jejich vstupem do PLDA, je zde nutná? Jaký je účel využití UBM-GMM v SRE systému? Vysvětlete z čeho se z nahrávky extrahuje i-vektor (každý rámec, segment souvislé řeči z VAD, celá nahrávka). Jaká je výhoda použití i-vektoru proti supervektoru?	cs
but.jazyk	čeština (Czech)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Matějka, Pavel	cs
dc.contributor.author	Profant, Ján	cs
dc.contributor.referee	Novotný, Ondřej	cs
dc.date.created	2016	cs
dc.description.abstract	Cílem této práce je analyzovat úspěšnost systému rozpoznávaní mluvčího na nahrávkach degradovaných různym telefonním přenosovým kanálem. Použili jsme dva způsoby extrakce příznaků - Mel Frequency Cepstral Coefficients (MFCC) a moderní systém, který spojuje Bottleneck příznaky spolu s MFCC. Systém rozpoznávání mluvčího je založen na i-vektorech a Pravděpodobnostní Lineární Diskriminační Analýze (PLDA). Porovnali jsme scenáře, kde je PLDA trénovaná jen na čisté řeči, poté systém kde jsme přidali data s hlukem a reverberací a nakonec, data degradované kodekem. Vyhodnotili jsem systémy za rovnakých podmínek (data ze stejného kodeku byli také v trénování PLDA) a také za rozdílnych podmínek (data ze stejného kodeku resp. rodiny kodeků nebyli v trénování PLDA). Také jsme experimentovali s nedávno představenou technikou na adaptaci kanálu - Within-class Covariance Correction (WCC). Můžeme jednoznačně vidět zlepšení úspěšnosti přidáním degradovaných dat do PLDA resp. WCC (s přibližně stejným výsledkem) pro obě naše testované podmínky.	cs
dc.description.abstract	The goal of this paper is to analyze the impact of codec degraded speech on a state-ofthe-art speaker recognition system. Two feature extraction techniques are analyzed - Mel Frequency Cepstral Coefficients (MFCC) and the state-of-the-art system using Bottleneck features together with MFCC. Speaker recognition system is based on i-vector and Probabilistic Linear Discriminant Analysis (PLDA). We compared scenarios where PLDA is trained only on clean data, then system where we added also noise and reverberant data, and at last, codec degraded speech. We evaluated the systems on the matched conditions (data from the same codec are seen with PLDA) and also mismatched conditions (PLDA does not see any data from the tested codec). We experimented also with recently introduced technique for channel adaptation - Within-class Covariance Correction (WCC). We can see clear benefit of adding transcoded data to PLDA or WCC (with approximately same gain) for both tested conditions (matched and mismatched).	en
dc.description.mark	B	cs
dc.identifier.citation	PROFANT, J. Robustní rozpoznávání mluvčího [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016.	cs
dc.identifier.other	96479	cs
dc.identifier.uri	http://hdl.handle.net/11012/62195
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	rozpoznávání mluvčího	cs
dc.subject	Pravděpodobnostní Lineární Diskriminační Analýza	cs
dc.subject	Within-class Covariance Correction	cs
dc.subject	i-vektor	cs
dc.subject	speaker verification	en
dc.subject	Probabilistic Linear Discriminant Analysis	en
dc.subject	Within-class Covariance Correction	en
dc.subject	i-vector	en
dc.title	Robustní rozpoznávání mluvčího	cs
dc.title.alternative	Robust Speaker Verification	en
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2016-06-15	cs
dcterms.modified	2020-05-10-16:12:36	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	96479	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.18 18:57:39	en
sync.item.modts	2025.01.15 23:59:07	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Robustní rozpoznávání mluvčího

Files

Original bundle

Collections