Rozpoznávání mluvčího ze vzdáleného zdroje s vícekanálovým zpracováním audia

but.committeedoc. Ing. Zdeněk Vašíček, Ph.D. (předseda) prof. Ing. Zbyněk Koldovský, Ph.D. (člen) doc. Ing. Pavel Král, Ph.D. (člen) doc. Ing. Jiří Schimmel, Ph.D. (člen) doc. RNDr. Petr Sojka, Ph.D. (člen)cs
but.defenceThe student presented the goals and results that he achieved within the solution of the dissertation. The student has competently answered the questions of the committee members and reviewers. The discussion is recorded on the discussion sheets, which are attached to the protocol. Number of discussion sheets: 4. The committee has agreed unanimously that the student has fulfilled the requirements for being awarded the academic title Ph.D. The committee unanimously recommends, and the opponents support, to awarding the thesis the Dean's Award for an exceptionally high-quality dissertation. The candidate presented excellent technical results, excellent presentation and pedagogical skills and excellent publication activity including Google Scholar h-index of 14.cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorČernocký, Janen
dc.contributor.authorMošner, Ladislaven
dc.contributor.refereeDelcroix, Marcen
dc.contributor.refereeHäb-Umbach, Reinholden
dc.date.accessioned2026-01-15T05:54:36Z
dc.date.created2026cs
dc.description.abstractZpracování řeči ze vzdálených zdrojů upoutává v posledních letech stále větší pozornost díky vzestupu inteligentních reproduktorů, domácích asistentů nebo systémů pro přepisování schůzek. K podpoře těchto aplikací jsou zapotřebí robustní techniky pro zpracování řeči ze vzdálených zdrojů. Klíčem k personalizované interakci je verifikace mluvčího. Ve srovnání se zpracováním signálů získaných mikrofony umístěnými blízko zdrojů čelí systémy zpracovávající nahrávky ze vzdálených senzorů dalším výzvám. Jimi jsou jevy, které zhoršují kvalitu cílové řeči, zejména dozvuk a šum v pozadí. Zařízení pro vzdálené snímání proto často využívají mikrofonní pole, která mohou napomoci zmírnění uvedených jevů díky tomu, že poskytují informaci o prostoru. Nastíněné výzvy a příležitosti motivují tuto práci, jež se zaměřuje na vícekanálovou verifikaci mluvčího. Z důvodu omezených zdrojů dat zůstává vícekanálová verifikace mluvčích nedostatečně prozkoumaná, a to navzdory významnému pokroku v souvisejících oblastech zpracování řeči. Předložená práce se věnuje dvěma fundamentálním aspektům: absenci dat i specializovaným technikám zpracování. V rámci problematiky dat jsme přetvořili existující veřejně dostupné datové sady a vyvinuli novou sadu, MultiSV, která poskytuje simulované vícekanálové směsi signálů s trénovacími referenčními signály řeči/šumu a identitami mluvčích. MultiSV rovněž obsahuje znovu přenesené nahrávky využitelné pro vyhodnocování verifikačních systémů s podporou různých scénářů. Příkladem může být varianta s registrací do systému pomocí jednokanálových čistých nebo vícekanálových poškozených nahrávek. Abychom podpořili trénování modelů s vyššími nároky na data, vytvořili jsme rozšířenou datovou sadu MultiSV2. Na úrovni modelů jsme nejprve přistoupili k extrakci řečových embeddingů z vícekanálového audia pomocí kaskádové strategie, přičemž jsme problém rozložili na vícekanálové předzpracování a jednokanálovou extrakci embeddingů. Motivováni pokroky v oblasti separace řeči jsme navrhli různé techniky od těch založených na zpracování signálů po hybridní, které kombinují neuronové sítě a beamforming. V práci se diskutuje přímá a nepřímá predikce masek pro beamforming na nich založený. Dále je představena metoda RCA (reference channel attention), která zobecňuje jednokanálové separační modely tak, aby mohly využít vícekanálové vstupy. S uvědoměním si omezení kaskádových modelů, jimiž jsou šíření chyb a odlišné objektivní funkce jednotlivých modulů, jsme dále prozkoumali jednotné architektury pro vícekanálovou extrakci embeddingů. S využitím MultiSV2 jsme dokázali ladit parametry spojených komponent kaskádových modelů s využitím cílové objektivní funkce. Následně jsme navrhli techniku METRO (multi-channel extension of pre-trained models), která rozšiřuje původně jednokanálové modely pro reprezentaci řeči trénované pomocí samořídícího učení na vícekanálové. Ačkoli METRO v kombinaci s vhodným extrakčním modelem produkuje řečové embeddingy pro vícekanálové audio, metoda samotná je obecná a potenciálně využitelná v dalších oblastech zpracování řeči.en
dc.description.abstractFar-field speech processing has gained increasing attention in recent years with the advent of smart speakers, home assistants, and meeting transcription systems. To support these applications, robust far-field speech processing techniques are required. A key task enabling personalized interaction is speaker verification. Compared to close-talking conditions, far-field systems face additional challenges such as reverberation and background noise, which degrade the target speech. To mitigate these effects, far-field devices typically employ microphone arrays that provide spatial information. These challenges and opportunities motivate this thesis, focusing on multi-channel speaker verification. Despite significant progress in related fields of speech processing, multi-channel speaker verification remains underexplored, hindered by limited data resources and specialized techniques. This thesis focuses on both aspects. On the data side, we repurposed existing publicly available corpora and created the MultiSV dataset, which provides simulated multi-channel mixtures with speech/noise training targets and speaker labels. MultiSV also defines multiple evaluation protocols based on retransmitted recordings, supporting various scenarios, such as single clean versus multi-channel corrupted enrollment. To support training more data-demanding models, we further introduced an extended dataset, MultiSV2. On the modeling side, we first approached multi-channel speaker embedding extraction using a cascaded strategy, decomposing the problem into multi-channel preprocessing and single-channel embedding extraction. Motivated by advances in speech separation, we designed models ranging from signal-processing-based methods to hybrid neural network and beamforming front-ends. Notably, we proposed direct and indirect mask prediction for mask-based beamforming, and the reference-channel attention (RCA) combiner, which generalizes single-channel separation models to multi-channel inputs. Recognizing the limitations of cascaded models, such as error propagation and different objectives of the modules, we next explored unified architectures for multi-channel embedding extraction. Leveraging MultiSV2, we fine-tuned cascaded components jointly with the end-task loss, and subsequently introduced METRO, a general framework that extends self-supervised speech representation models to multi-channel settings. METRO yields multi-channel speaker embeddings. However, it is general and potentially applicable to other speech processing tasks.cs
dc.description.markPcs
dc.identifier.citationMOŠNER, L. Rozpoznávání mluvčího ze vzdáleného zdroje s vícekanálovým zpracováním audia [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2026.cs
dc.identifier.other170956cs
dc.identifier.urihttps://hdl.handle.net/11012/255823
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectvícekanálová verifikace mluvčíchen
dc.subjectmikrofonní poleen
dc.subjectbeamformingen
dc.subjectseparace řečien
dc.subjectextrakce embeddingů mluvčíchen
dc.subjectMultiSVen
dc.subjectmulti-channel speaker verificationcs
dc.subjectmicrophone arrayscs
dc.subjectbeamformingcs
dc.subjectspeech separationcs
dc.subjectspeaker embedding extractioncs
dc.subjectMultiSVcs
dc.titleRozpoznávání mluvčího ze vzdáleného zdroje s vícekanálovým zpracováním audiaen
dc.title.alternativeFar-Field Speaker Verification Incorporating Multichannel Processingcs
dc.typeTextcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
dcterms.dateAccepted2026-01-14cs
dcterms.modified2026-01-14-13:30:39cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid170956en
sync.item.dbtypeZPen
sync.item.insts2026.01.15 06:54:36en
sync.item.modts2026.01.15 05:31:59en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelDoktorskýcs
thesis.namePh.D.cs

Files

Original bundle

Now showing 1 - 5 of 5
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
4.04 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-Mosner_supervisors_statement_thesis.pdf
Size:
67.39 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Vedouci prace-Mosner_supervisors_statement_thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-Mosner25_PHD_thesis_review_final_upr.pdf
Size:
220.43 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Oponent prace-Mosner25_PHD_thesis_review_final_upr.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-HabUmbach_Mosner_Assessment_upr.pdf
Size:
183.08 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Oponent prace-HabUmbach_Mosner_Assessment_upr.pdf
Loading...
Thumbnail Image
Name:
review_170956.html
Size:
5.81 KB
Format:
Hypertext Markup Language
Description:
file review_170956.html

Collections