Analýza a optimalizace klastrování embeddingů v diarizačním systému DiariZen

Loading...
Thumbnail Image

Date

Authors

Pálka, Petr

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce představuje vylepšení systému diarizace mluvčích DiariZen, který je založen na dvoustupňové architektuře EEND-VC. První stupeň využívá end-to-end neuronový diarizační model (EEND), jenž predikuje aktivitu jednotlivých mluvčích na úrovni rámců pomocí Conformer enkodéru. Vstupní akustické reprezentace jsou získávány z předtrénovaného modelu WavLM. Tento přístup eliminuje potřebu simulovaných směsí, které jsou obvykle nutné při trénování tradičních EEND modelů, a poskytuje silný výchozí model, ačkoliv za cenu vyšších výpočetních nároků. Druhý stupeň systému se zaměřuje na klastrování embeddingů mluvčích získaných z překrývajících se lokálních oken, aby bylo dosaženo konzistentní globální identity mluvčích a správného odhadu jejich celkového počtu. Práce navrhuje několik vylepšení této fáze. Patří mezi ně filtrování embeddingů z krátkých, nespolehlivých segmentů a jejich následné přiřazení ke klastrům po samotném klastrování. Dále je navrženo nové kritérium pro zastavení aglomerativního hierarchického klastrování (AHC), označované jako continue-criterion. Toto kritérium zlepšuje odhad počtu mluvčích tím, že zabraňuje předčasnému slučování klastrů odpovídajících odlišným mluvčím. Další zlepšení přináší integrace modelu VBx pro nahrávky nahrávky, ve kterých někteří mluvčí hovoří výrazně méně než ostatní. Navržený systém byl vyhodnocen na široké škále testovacích dat bez nutnosti dodatečného ladění EEND modelu či klastrovacích parametrů pro konkrétní domény. Navzdory tomu, že navržený systém nebyl laděn na konkrétní domény, dosahuje výsledků srovnatelných či lepších než nejnovější špičkové přístupy, jejichž publikované výsledky byly zpravidla dosaženy za pomoci specifického ladění na cílová data.
This thesis presents improvements to speaker diarization within the DiariZen system, based on the two-stage EEND-VC architecture. The first stage employs an end-to-end neural diarization (EEND) model that predicts frame-level speaker activity using a Conformer encoder built on self-supervised WavLM features. This approach eliminates the need for simulated mixtures typically required in EEND training and offers a competitive baseline, though with increased computational cost. The second stage focuses on clustering speaker embeddings from overlapping local EEND windows to derive consistent global speaker identities and estimate the number of speakers. Several enhancements to this stage are proposed. These include filtering out unreliable embeddings extracted from short segments and reassigning them after clustering, as well as a novel stopping criterion for agglomerative hierarchical clustering (AHC), referred to as the continue-criterion. This method improves speaker count estimation by preventing premature merging of distinct speaker clusters. The integration of the VBx model further strengthens performance in cases with sparse speaker activity. The system is evaluated on a diverse compound benchmark without any fine-tuning of the EEND model or dataset-specific clustering parameters. Despite this, the proposed system demonstrates strong generalization and achieves results comparable to or better than recent state-of-the-art approaches, whose best reported performance is typically obtained through such dataset-specific fine-tuning.

Description

Citation

PÁLKA, P. Analýza a optimalizace klastrování embeddingů v diarizačním systému DiariZen [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Zpracování zvuku, řeči a přirozeného jazyka

Comittee

doc. Mgr. Adam Rogalewicz, Ph.D. (předseda) doc. RNDr. Pavel Smrž, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (člen) Dr. Ing. Petr Peringer (člen) Ing. Aleš Smrčka, Ph.D. (člen) Ing. Ondřej Lengál, Ph.D. (člen)

Date of acceptance

2025-06-26

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Komise ohodnotila práci stupněm 4F, protože souhlasí s výtkami vedoucího i oponentky práce a doporučuje povolit odevzdání v srpnovém termínu. Komise shledala nedostatky práce natolik závažné, že se práci rozhodla hodnotit jako nevyhovující.

Result of defence

práce nebyla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO