Od modulárních k celostním systémům diarizace řečníka

but.committeedoc. Ing. Jan Kořenek, Ph.D. (předseda) doc. Ing. Zdeněk Žabokrtský, Ph.D. (člen) doc. Mgr. Hana Rudová, Ph.D. (člen) prof. Ing. Hynek Heřmanský (člen) Assoc. Prof. Sriram Ganapathy, PhD. (člen)cs
but.defenceStudent přednesl cíle a výsledky, kterých v rámci řešení disertační práce dosáhl. V rozpravě student odpověděl na otázky komise a oponentů a hostů. Diskuze je zaznamenána na diskuzních lístcích, které jsou přílohou protokolu. Počet diskuzních lístků: 7 Komise se v závěru jednomyslně usnesla, že student splnil podmínky pro udělení akademického titulu doktor. Komise jednomyslně doporučuje, aby studentovi byla udělena cena za výjimečně kvalitní disertační práci. The student presented the goals and results, which he achieved within the solution of the dissertation. The student has competently answered the questions of the committee members and reviewers and guests. The discussion is recorded on the discussion sheets, which are attached to the protocol. Number of discussion sheets: 7 The committee has agreed unanimously that the student has fulfilled requirements for being awarded the academic title Ph.D. The committee recommends awarding the thesis the deans prize.cs
but.jazykangličtina (English)
but.programVýpočetní technika a informatikacs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Lukášen
dc.contributor.authorLandini, Federico Nicolásen
dc.contributor.refereeGanapathy, Sriramen
dc.contributor.refereeBredin, Herveen
dc.date.accessioned2024-07-17T03:54:08Z
dc.date.available2024-07-17T03:54:08Z
dc.date.created2024cs
dc.description.abstractDiarizace mluvčího se obvykle popisuje jako úloha, která určuje, "kdo kdy mluvil" v nahrávce. Ještě před několika lety byly všechny konkurenceschopné přístupy modulární, tj. detekce hlasové aktivity, segmentace, extrakce embeddingů, shlukování a detekce a zpracování překrývající se řeči byly řešeny různými subsystémy a aplikovány jeden po druhém. Takto konstruované systémy dosahovaly ve většině scénářů nejlepších výsledků, ale měly velké potíže vypořádat se s překrývající se řečí. V poslední době vzbudil velkou pozornost nástup end-to-end modelů, které jsou schopny řešit všechny aspekty diarizace mluvčího pomocí jediného modelu a mají lepší úspěšnost, pokud jde o překrývající se řeč.   Tato práce vznikla v období koexistence těchto dvou trendů. Popisujeme systém založený na bayesovském skrytém Markovově modelu používaném ke shlukování x-vektorů (embeddingů mluvčích získaných pomocí neuronové sítě), známý jako VBx, který prokázal pozoruhodnou úspěšnost na různých souborech dat a evaluačních v různých kampaních. Popíšeme jeho výhody a omezení a vyhodnotíme výsledky na různých relevantních korpusech. Poté přejdeme k metodám end-to-end neuronové diarizace (EEND). Vzhledem k potřebě velkých trénovacích sad pro trénování těchto modelů a nedostatku ručně anotovaných diarizačních dat v dostatečném množství spočívá kompromisní řešení v umělém generování trénovacích dat. Popíšeme přístup ke generování syntetických dat, která se z hlediska změn a překryvů mluvčích podobají skutečným rozhovorům. Ukážeme, jak tato metoda generování simulovaných konverzací umožňuje dosáhnout lepší úspěšnosti než dříve navržená metoda vytváření simulovaných směsí při trénování populárního EEND s enkodér-dekodér atraktory (EEND-EDA). Navrhneme také nový model založený na EEND, který nazýváme DiaPer, a ukážeme, že může dosáhnout lepších výsledků než EEND-EDA, zejména při práci s mnoha mluvčími a při zpracování překrývající se řeči. Nakonec porovnáváme oba systémy, VBx i DiaPer, na široké škále datových sad a prodiskutejeme výhody každého z nich.en
dc.description.abstractSpeaker diarization is usually referred to as the task that determines ``who spoke when'' in a recording. Until a few years ago, all competitive approaches were modular, i.e. voice activity detection, segmentation, embedding extraction, clustering and overlapped speech detection and handling were tackled by different sub-systems and applied in a cascaded fashion. Systems based on this framework reached state-of-the-art performance in most scenarios but had major difficulties dealing with overlapped speech. More recently, the advent of end-to-end models, capable of dealing with all aspects of speaker diarization with a single model and better performing regarding overlapped speech, has brought high levels of attention.   This thesis is framed during a period of co-existence of these two trends. We describe a system based on a Bayesian hidden Markov model used to cluster x-vectors (speaker embeddings obtained with a neural network), known as VBx, which has shown remarkable performance on different datasets and challenges. We comment on its advantages and limitations and evaluate results on different relevant corpora. Then, we move towards end-to-end neural diarization (EEND) methods. Due to the need for large training sets for training these models and the lack of manually annotated diarization data in sufficient quantities, the compromise solution consists in generating training data artificially. We describe an approach for generating synthetic data which resembles real conversations in terms of speaker turns and overlaps. We show how this method generating "simulated conversations" allows for better performance than using a previously proposed method for creating "simulated mixtures" when training the popular EEND with encoder-decoder attractors (EEND-EDA). We also propose a new EEND-based model, which we call DiaPer, and show that it can perform better than EEND-EDA, especially when dealing with many speakers and handling overlapped speech. Finally, we compare both VBx-based and DiaPer systems on a wide variety of corpora and comment on the advantages of each technique.cs
dc.description.markPcs
dc.identifier.citationLANDINI, F. Od modulárních k celostním systémům diarizace řečníka [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.cs
dc.identifier.other162079cs
dc.identifier.urihttps://hdl.handle.net/11012/249334
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectDiarizace mluvčíhoen
dc.subjectVBxen
dc.subjectneuronová diarizace end-to-enden
dc.subjectsimulované rozhovoryen
dc.subjectDiaPer.en
dc.subjectSpeaker diarizationcs
dc.subjectVBxcs
dc.subjectend-to-end neural diarizationcs
dc.subjectsimulated conversationscs
dc.subjectDiaPer.cs
dc.titleOd modulárních k celostním systémům diarizace řečníkaen
dc.title.alternativeFrom Modular to End-to-End Speaker Diarizationcs
dc.typeTextcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
dcterms.dateAccepted2024-06-27cs
dcterms.modified2024-07-04-11:50:14cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid162079en
sync.item.dbtypeZPen
sync.item.insts2024.07.17 05:54:08en
sync.item.modts2024.07.17 05:12:33en
thesis.disciplineVýpočetní technika a informatikacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelDoktorskýcs
thesis.namePh.D.cs
Files
Original bundle
Now showing 1 - 5 of 5
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
4.79 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-1357_s1.pdf
Size:
56.11 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Vedouci prace-1357_s1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-1357_o1.pdf
Size:
82.92 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Oponent prace-1357_o1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-1357_o2.pdf
Size:
87.93 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Oponent prace-1357_o2.pdf
Loading...
Thumbnail Image
Name:
review_162079.html
Size:
1.66 KB
Format:
Hypertext Markup Language
Description:
file review_162079.html
Collections