Analýza kombinace informací ve více-kanálové verifikaci mluvčích
but.committee | prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Zdeněk Vašíček, Ph.D. (člen) Ing. Václav Šátek, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Mošner, Ladislav | cs |
dc.contributor.author | Procházka, Jan | cs |
dc.contributor.referee | Plchot, Oldřich | cs |
dc.date.created | 2023 | cs |
dc.description.abstract | Tato práce se zabývá analýzou a porovnáním kombinací informací více-kanálových řečových dat pro úlohu verifikace mluvčího. Byly zvoleny tři úrovně/reprezentace pro fúzi dat: kombinace na úrovni signálu, embeddingu a skóre. Na úrovni signálu jsou implementovány prostorové filtry (algoritmy formování svazku – beamforming). Řečové nahrávky slouží jako vstup do neuronové sítě (architektura ECAPA-TDNN), která extrahuje „embeddingy“, vektorovou reprezentaci mluvčího. Vektory jsou dále porovnány pomocí kosinové podobnosti, jehož výsledkem jsou skóre, reálná čísla. Nejlepšího relativního zlepšení proti jedno-kanálovým nahrávkám dosahuje fúze na úrovni skóre (až 70 %), nejkonzistentnější výsledky pro různé podmínky pořizování nahrávek poskytuje fúze na úrovni embeddingu. | cs |
dc.description.abstract | In this work, we deal with the analysis and comparison of information combinations of multi-channel speech data for a speaker verification task. Three levels/representations were chosen for data fusion: signal-level, embedding-level, and score-level. At the signal level, spatial filters (beamforming) are implemented. Speech recordings serve as input to a neural network (ECAPA-TDNN architecture) that extracts embeddings, vector representations of the speaker. The vectors are further compared by cosine similarity module that results in scores, real numbers. Score-level fusion achieves the best relative improvement against single-channel recordings (up to 70 %). Embedding-level fusion provides the most consistent results for different recording conditions. | en |
dc.description.mark | A | cs |
dc.identifier.citation | PROCHÁZKA, J. Analýza kombinace informací ve více-kanálové verifikaci mluvčích [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023. | cs |
dc.identifier.other | 148427 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/210485 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | verifikace mluvčího | cs |
dc.subject | formování svazku | cs |
dc.subject | prostorové filtrování | cs |
dc.subject | ECAPA-TDNN | cs |
dc.subject | Delay and sum | cs |
dc.subject | MVDR | cs |
dc.subject | fúze více-kanálových dat | cs |
dc.subject | MultiSV | cs |
dc.subject | Speech@FIT | cs |
dc.subject | speaker verification | en |
dc.subject | beamforming | en |
dc.subject | spatial filtering | en |
dc.subject | ECAPA-TDNN | en |
dc.subject | Delay and sum | en |
dc.subject | MVDR | en |
dc.subject | multi-channel data fusion | en |
dc.subject | MultiSV | en |
dc.subject | Speech@FIT | en |
dc.title | Analýza kombinace informací ve více-kanálové verifikaci mluvčích | cs |
dc.title.alternative | Information Combination Analysis in Multi-Channel Speaker Verification | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2023-06-15 | cs |
dcterms.modified | 2023-06-15-16:13:38 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 148427 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 19:45:51 | en |
sync.item.modts | 2025.01.17 12:21:06 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |