Analýza kombinace informací ve více-kanálové verifikaci mluvčích

Loading...
Thumbnail Image

Date

Authors

Procházka, Jan

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce se zabývá analýzou a porovnáním kombinací informací více-kanálových řečových dat pro úlohu verifikace mluvčího. Byly zvoleny tři úrovně/reprezentace pro fúzi dat: kombinace na úrovni signálu, embeddingu a skóre. Na úrovni signálu jsou implementovány prostorové filtry (algoritmy formování svazku – beamforming). Řečové nahrávky slouží jako vstup do neuronové sítě (architektura ECAPA-TDNN), která extrahuje „embeddingy“, vektorovou reprezentaci mluvčího. Vektory jsou dále porovnány pomocí kosinové podobnosti, jehož výsledkem jsou skóre, reálná čísla. Nejlepšího relativního zlepšení proti jedno-kanálovým nahrávkám dosahuje fúze na úrovni skóre (až 70 %), nejkonzistentnější výsledky pro různé podmínky pořizování nahrávek poskytuje fúze na úrovni embeddingu.
In this work, we deal with the analysis and comparison of information combinations of multi-channel speech data for a speaker verification task. Three levels/representations were chosen for data fusion: signal-level, embedding-level, and score-level. At the signal level, spatial filters (beamforming) are implemented. Speech recordings serve as input to a neural network (ECAPA-TDNN architecture) that extracts embeddings, vector representations of the speaker. The vectors are further compared by cosine similarity module that results in scores, real numbers. Score-level fusion achieves the best relative improvement against single-channel recordings (up to 70 %). Embedding-level fusion provides the most consistent results for different recording conditions.

Description

Citation

PROCHÁZKA, J. Analýza kombinace informací ve více-kanálové verifikaci mluvčích [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační technologie

Comittee

prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Zdeněk Vašíček, Ph.D. (člen) Ing. Václav Šátek, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen)

Date of acceptance

2023-06-15

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO