Analýza a optimalizace klastrování embeddingů v diarizačním systému DiariZen

but.committeedoc. Ing. Richard Růžička, Ph.D., MBA (předseda) doc. Ing. Petr Matoušek, Ph.D., M.A. (člen) Ing. Libor Polčák, Ph.D. (člen) Ing. Ondřej Lengál, Ph.D. (člen) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Radek Burget, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně související publikační činnosti či způsobu uvádění bibliografických informací. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Lukášen
dc.contributor.authorPálka, Petren
dc.contributor.refereeDiez Sánchez, Mireiaen
dc.date.accessioned2025-08-28T05:57:45Z
dc.date.available2025-08-28T05:57:45Z
dc.date.created2025cs
dc.description.abstractTato práce představuje vylepšení systému diarizace mluvčích DiariZen, který je založen na dvoustupňové architektuře EEND-VC. První stupeň využívá end-to-end neuronový diarizační model (EEND), jenž pomocí Conformer enkodéru predikuje aktivitu jednotlivých mluvčích na úrovni rámců pro krátká lokální časová okna. Vstupní akustické reprezentace jsou získávány ze silného samoučením předtrénovaného modelu WavLM eliminujícího potřebu simulovaných směsí, které jsou obvykle nutné při trénování tradičních EEND modelů. Druhý stupeň systému se zaměřuje na klastrování embeddingů mluvčích získaných pomocí EEND z překrývajících se lokálních oken, aby bylo dosaženo konzistentní globální identity mluvčích a správného odhadu jejich celkového počtu. Práce navrhuje několik vylepšení této fáze. Patří mezi ně filtrování embeddingů z krátkých, nespolehlivých segmentů a jejich následné přiřazení ke klastrům po samotném klastrování. Dále je navrženo nové kritérium pro zastavení aglomerativního hierarchického klastrování (AHC), označované jako continued-criterion. Toto kritérium zlepšuje odhad počtu mluvčích tím, že zabraňuje předčasnému slučování klastrů odpovídajících odlišným mluvčím. Další zlepšení přináší integrace modelu VBx pro nahrávky nahrávky, ve kterých někteří mluvčí hovoří výrazně méně než ostatní. Navržený systém byl vyhodnocen na široké škále testovacích dat bez nutnosti dodatečného ladění EEND modelu či klastrovacích parametrů pro konkrétní domény. Navzdory tomu, že navržený systém nebyl laděn na konkrétní domény, dosahuje výsledků srovnatelných či lepších než nejnovější špičkové přístupy, jejichž publikované výsledky byly zpravidla dosaženy za pomoci specifického ladění na cílová data.en
dc.description.abstractThis thesis presents improvements to speaker diarization within the DiariZen system, which is based on the two-stage EEND-VC architecture. Using a Conformer encoder, the first stage employs an end-to-end neural diarization (EEND) model that predicts frame-level speaker activity for short local time windows. The input acoustic representations are obtained from strong self-supervised WavLM foundation model, which eliminates the need for simulated mixtures typically required in EEND training. The second stage focuses on clustering speaker embeddings from overlapping local EEND windows to derive consistent global speaker identities and to estimate the number of speakers. Several improvements to this stage are proposed. These include filtering out unreliable embeddings extracted from short segments and reassigning them after clustering, as well as a novel stopping criterion for agglomerative hierarchical clustering (AHC), referred to as the continued-criterion. This method improves speaker count estimation by preventing premature merging of distinct speaker clusters. The integration of the VBx model further strengthens performance in cases with sparse speaker activity. The system is evaluated on a diverse compound benchmark without any fine-tuning of the EEND model or dataset-specific clustering parameters. Despite this, the proposed system demonstrates strong generalization and achieves results comparable to or better than recent state-of-the-art approaches, whose best reported performance is typically obtained through such dataset-specific fine-tuning.cs
dc.description.markAcs
dc.identifier.citationPÁLKA, P. Analýza a optimalizace klastrování embeddingů v diarizačním systému DiariZen [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other170544cs
dc.identifier.urihttps://hdl.handle.net/11012/255495
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectdiarizace mluvčíhoen
dc.subjectEEND-VCen
dc.subjectVBxen
dc.subjectpyannoteen
dc.subjectspeaker diarizationcs
dc.subjectEEND-VCcs
dc.subjectVBxcs
dc.subjectpyannotecs
dc.titleAnalýza a optimalizace klastrování embeddingů v diarizačním systému DiariZenen
dc.title.alternativeAnalysis and Optimization of Embedding Clustering in the Diarization System DiariZencs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2025-08-27cs
dcterms.modified2025-08-27-13:01:59cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid170544en
sync.item.dbtypeZPen
sync.item.insts2025.08.28 07:57:45en
sync.item.modts2025.08.28 05:33:53en
thesis.disciplineZpracování zvuku, řeči a přirozeného jazykacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.86 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_170544.html
Size:
14.3 KB
Format:
Hypertext Markup Language
Description:
file review_170544.html

Collections