Analýza a optimalizace klastrování embeddingů v diarizačním systému DiariZen
Loading...
Date
Authors
Pálka, Petr
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato práce představuje vylepšení systému diarizace mluvčích DiariZen, který je založen na dvoustupňové architektuře EEND-VC. První stupeň využívá end-to-end neuronový diarizační model (EEND), jenž pomocí Conformer enkodéru predikuje aktivitu jednotlivých mluvčích na úrovni rámců pro krátká lokální časová okna. Vstupní akustické reprezentace jsou získávány ze silného samoučením předtrénovaného modelu WavLM eliminujícího potřebu simulovaných směsí, které jsou obvykle nutné při trénování tradičních EEND modelů. Druhý stupeň systému se zaměřuje na klastrování embeddingů mluvčích získaných pomocí EEND z překrývajících se lokálních oken, aby bylo dosaženo konzistentní globální identity mluvčích a správného odhadu jejich celkového počtu. Práce navrhuje několik vylepšení této fáze. Patří mezi ně filtrování embeddingů z krátkých, nespolehlivých segmentů a jejich následné přiřazení ke klastrům po samotném klastrování. Dále je navrženo nové kritérium pro zastavení aglomerativního hierarchického klastrování (AHC), označované jako continued-criterion. Toto kritérium zlepšuje odhad počtu mluvčích tím, že zabraňuje předčasnému slučování klastrů odpovídajících odlišným mluvčím. Další zlepšení přináší integrace modelu VBx pro nahrávky nahrávky, ve kterých někteří mluvčí hovoří výrazně méně než ostatní. Navržený systém byl vyhodnocen na široké škále testovacích dat bez nutnosti dodatečného ladění EEND modelu či klastrovacích parametrů pro konkrétní domény. Navzdory tomu, že navržený systém nebyl laděn na konkrétní domény, dosahuje výsledků srovnatelných či lepších než nejnovější špičkové přístupy, jejichž publikované výsledky byly zpravidla dosaženy za pomoci specifického ladění na cílová data.
This thesis presents improvements to speaker diarization within the DiariZen system, which is based on the two-stage EEND-VC architecture. Using a Conformer encoder, the first stage employs an end-to-end neural diarization (EEND) model that predicts frame-level speaker activity for short local time windows. The input acoustic representations are obtained from strong self-supervised WavLM foundation model, which eliminates the need for simulated mixtures typically required in EEND training. The second stage focuses on clustering speaker embeddings from overlapping local EEND windows to derive consistent global speaker identities and to estimate the number of speakers. Several improvements to this stage are proposed. These include filtering out unreliable embeddings extracted from short segments and reassigning them after clustering, as well as a novel stopping criterion for agglomerative hierarchical clustering (AHC), referred to as the continued-criterion. This method improves speaker count estimation by preventing premature merging of distinct speaker clusters. The integration of the VBx model further strengthens performance in cases with sparse speaker activity. The system is evaluated on a diverse compound benchmark without any fine-tuning of the EEND model or dataset-specific clustering parameters. Despite this, the proposed system demonstrates strong generalization and achieves results comparable to or better than recent state-of-the-art approaches, whose best reported performance is typically obtained through such dataset-specific fine-tuning.
This thesis presents improvements to speaker diarization within the DiariZen system, which is based on the two-stage EEND-VC architecture. Using a Conformer encoder, the first stage employs an end-to-end neural diarization (EEND) model that predicts frame-level speaker activity for short local time windows. The input acoustic representations are obtained from strong self-supervised WavLM foundation model, which eliminates the need for simulated mixtures typically required in EEND training. The second stage focuses on clustering speaker embeddings from overlapping local EEND windows to derive consistent global speaker identities and to estimate the number of speakers. Several improvements to this stage are proposed. These include filtering out unreliable embeddings extracted from short segments and reassigning them after clustering, as well as a novel stopping criterion for agglomerative hierarchical clustering (AHC), referred to as the continued-criterion. This method improves speaker count estimation by preventing premature merging of distinct speaker clusters. The integration of the VBx model further strengthens performance in cases with sparse speaker activity. The system is evaluated on a diverse compound benchmark without any fine-tuning of the EEND model or dataset-specific clustering parameters. Despite this, the proposed system demonstrates strong generalization and achieves results comparable to or better than recent state-of-the-art approaches, whose best reported performance is typically obtained through such dataset-specific fine-tuning.
Description
Keywords
Citation
PÁLKA, P. Analýza a optimalizace klastrování embeddingů v diarizačním systému DiariZen [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Zpracování zvuku, řeči a přirozeného jazyka
Comittee
doc. Ing. Richard Růžička, Ph.D., MBA (předseda)
doc. Ing. Petr Matoušek, Ph.D., M.A. (člen)
Ing. Libor Polčák, Ph.D. (člen)
Ing. Ondřej Lengál, Ph.D. (člen)
prof. Dr. Ing. Jan Černocký (člen)
doc. Ing. Radek Burget, Ph.D. (člen)
Date of acceptance
2025-08-27
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně související publikační činnosti či způsobu uvádění bibliografických informací. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.
Result of defence
práce byla úspěšně obhájena
