Speaker Recognition Based on Long Temporal Context

Fér, Radek

Speaker Recognition Based on Long Temporal Context

but.committee	prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jaroslav Zendulka, CSc. (místopředseda) Ing. Zbyněk Křivka, Ph.D. (člen) doc. Ing. Richard Růžička, Ph.D., MBA (člen) doc. Ing. Jiří Rybička, Dr. (člen) prof. Dr. Ing. Pavel Zemčík, dr. h. c. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " A ". Otázky u obhajoby: You wrote that the first results were bad, what does it mean? What was the EER? What was the main change in the final system? Did you do any per phoneme statistics with the output of phoneme verification? What context dependent phonemes were worst, which best? Can you do any conclusion out of it like dependencies on occurrence in training data? Did you try to train ivector for reparametrization on long utterances? It is not good to train ivector on short excerpts of audio according to my experience. Did you try to use the baseline system for reparametrization? It would be needed to use LDA for dimensionality reduction from 400 to 40 or 60, but the LDA can be trained to extract only speaker information.	cs
but.jazyk	angličtina (English)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Černocký, Jan	en
dc.contributor.author	Fér, Radek	en
dc.contributor.referee	Matějka, Pavel	en
dc.date.created	2014	cs
dc.description.abstract	Tato práce se zabývá extrakcí vhodných příznaků pro rozpoznávání řečníka z delších časových úseků. Po představení současných technik pro extrakci takových příznaků navrhujeme a popisujeme novou metodu pracující v časovém rozsahu fonémů a využívající známou techniku i-vektorů. Velké úsilí bylo vynaloženo na nalezení vhodné reprezentace temporálních příznaků, díky kterým by mohly být systémy pro rozpoznávání řečníka robustnější, zejména modelování prosodie. Náš přístup nemodeluje explicitně žádné specifické temporální parametry řeči, namísto toho používá kookurenci řečových rámců jako zdroj temporálních příznaků. Tuto techniku testujeme a analyzujeme na řečové databázi NIST SRE 2008. Z výsledků bohužel vyplývá, že pro rozpoznávání řečníka tato technika nepřináší očekávané zlepšení. Tento fakt diskutujeme a analyzujeme ke konci práce.	en
dc.description.abstract	This work deals with temporal features for automated speaker recognition. We give overview of currently known temporal feature extraction methods and afterwards, we propose and preliminarily evaluate a general phoneme-level temporal feature extraction scheme based on factor analysis i-vector paradigm. Much effort has been made to reasonably represent temporal context and make speaker recognition systems more robust, namely speech prosody modeling. Our approach does not explicitly model any temporal parameters of speech, rather it uses the occurrence of neighboring frames as a source of temporal information. We test and analyze this method on standard evaluation database NIST SRE 2008. The results indicate, however, that for speaker recognition, no useful gain can be obtained using this technique. We describe and discuss this discovery at the end.	cs
dc.description.mark	A	cs
dc.identifier.citation	FÉR, R. Speaker Recognition Based on Long Temporal Context [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2014.	cs
dc.identifier.other	88474	cs
dc.identifier.uri	http://hdl.handle.net/11012/53364
dc.language.iso	en	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	rozpoznávání řečníka	en
dc.subject	temporální příznaky	en
dc.subject	i-vektory	en
dc.subject	parametrizace řeči	en
dc.subject	speaker recognition	cs
dc.subject	temporal features	cs
dc.subject	i-vectors	cs
dc.subject	speech parametrization	cs
dc.title	Speaker Recognition Based on Long Temporal Context	en
dc.title.alternative	Speaker Recognition Based on Long Temporal Context	cs
dc.type	Text	cs
dc.type.driver	masterThesis	en
dc.type.evskp	diplomová práce	cs
dcterms.dateAccepted	2014-08-27	cs
dcterms.modified	2020-05-10-16:11:47	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	88474	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.26 15:18:20	en
sync.item.modts	2025.01.15 13:19:41	en
thesis.discipline	Počítačová grafika a multimédia	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Inženýrský	cs
thesis.name	Ing.	cs

Files

Original bundle

Now showing 1 - 2 of 2

Name:: final-thesis.pdf
Size:: 1.28 MB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: review_88474.html
Size:: 1.44 KB
Format:: Hypertext Markup Language
Description:: file review_88474.html

Download

Collections

2014