Analýza kombinace informací ve více-kanálové verifikaci mluvčích

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Zdeněk Vašíček, Ph.D. (člen) Ing. Václav Šátek, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorMošner, Ladislavcs
dc.contributor.authorProcházka, Jancs
dc.contributor.refereePlchot, Oldřichcs
dc.date.created2023cs
dc.description.abstractTato práce se zabývá analýzou a porovnáním kombinací informací více-kanálových řečových dat pro úlohu verifikace mluvčího. Byly zvoleny tři úrovně/reprezentace pro fúzi dat: kombinace na úrovni signálu, embeddingu a skóre. Na úrovni signálu jsou implementovány prostorové filtry (algoritmy formování svazku – beamforming). Řečové nahrávky slouží jako vstup do neuronové sítě (architektura ECAPA-TDNN), která extrahuje „embeddingy“, vektorovou reprezentaci mluvčího. Vektory jsou dále porovnány pomocí kosinové podobnosti, jehož výsledkem jsou skóre, reálná čísla. Nejlepšího relativního zlepšení proti jedno-kanálovým nahrávkám dosahuje fúze na úrovni skóre (až 70 %), nejkonzistentnější výsledky pro různé podmínky pořizování nahrávek poskytuje fúze na úrovni embeddingu.cs
dc.description.abstractIn this work, we deal with the analysis and comparison of information combinations of multi-channel speech data for a speaker verification task. Three levels/representations were chosen for data fusion: signal-level, embedding-level, and score-level. At the signal level, spatial filters (beamforming) are implemented. Speech recordings serve as input to a neural network (ECAPA-TDNN architecture) that extracts embeddings, vector representations of the speaker. The vectors are further compared by cosine similarity module that results in scores, real numbers. Score-level fusion achieves the best relative improvement against single-channel recordings (up to 70 %). Embedding-level fusion provides the most consistent results for different recording conditions.en
dc.description.markAcs
dc.identifier.citationPROCHÁZKA, J. Analýza kombinace informací ve více-kanálové verifikaci mluvčích [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.cs
dc.identifier.other148427cs
dc.identifier.urihttp://hdl.handle.net/11012/210485
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectverifikace mluvčíhocs
dc.subjectformování svazkucs
dc.subjectprostorové filtrovánícs
dc.subjectECAPA-TDNNcs
dc.subjectDelay and sumcs
dc.subjectMVDRcs
dc.subjectfúze více-kanálových datcs
dc.subjectMultiSVcs
dc.subjectSpeech@FITcs
dc.subjectspeaker verificationen
dc.subjectbeamformingen
dc.subjectspatial filteringen
dc.subjectECAPA-TDNNen
dc.subjectDelay and sumen
dc.subjectMVDRen
dc.subjectmulti-channel data fusionen
dc.subjectMultiSVen
dc.subjectSpeech@FITen
dc.titleAnalýza kombinace informací ve více-kanálové verifikaci mluvčíchcs
dc.title.alternativeInformation Combination Analysis in Multi-Channel Speaker Verificationen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2023-06-15cs
dcterms.modified2023-06-15-16:13:38cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid148427en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:45:51en
sync.item.modts2025.01.17 12:21:06en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
3.4 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_148427.html
Size:
10.77 KB
Format:
Hypertext Markup Language
Description:
file review_148427.html
Collections