Zvyšování robustnosti systémů pro rozpoznávání mluvčích pomocí diskriminativních technik

but.committeeprof. Ing. Martin Drahanský, Ph.D. (předseda) prof. Ing. Adam Herout, Ph.D. (člen) doc. RNDr. Aleš Horák, Ph.D. (člen) doc. Ing. Radim Kolář, Ph.D. (člen) doc. Ing. Petr Pollák, CSc. (člen)cs
but.defenceStudent přednesl cíle a výsledky, kterých v rámci řešení disertační práce dosáhl. V rozpravě student odpověděl na otázky komise a oponentů a hostů. Diskuze je zaznamenána na diskuzních lístcích, které jsou přílohou protokolu. Počet diskuzních lístků: 1 Komise se v závěru jednomyslně usnesla, že student splnil podmínky pro udělení akademického titulu doktor.cs
but.jazykangličtina (English)
but.programVýpočetní technika a informatikacs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorČernocký, Janen
dc.contributor.authorNovotný, Ondřejen
dc.contributor.refereeFerrer, Lucianaen
dc.contributor.refereePollák, Petren
dc.date.accessioned2022-01-13T07:55:05Z
dc.date.available2022-01-13T07:55:05Z
dc.date.created2021cs
dc.description.abstractTato práce pojednává o využití diskriminativních technik v oblasti rozpoznávání  mluvčích za účelem získání větší robustnosti těchto systémů vůči vlivům negativně ovlivňující jejich výkonnost. Mezi tyto vlivy řadíme šum, reverberaci nebo přenosový kanál. Práce je rozdělena do dvou hlavních částí. V první části se věnujeme teoretickému úvodu do problematiky rozpoznávání mluvčích. Popsány jsou  jednotlivé kroky rozpoznávacího systému od extrakce akustických příznaků, extrakce vektorových reprezentací nahrávek, až po tvorbu finálního rozpoznávacího skóre. Zvláštní důraz je věnován technikám extrakce vektorové reprezentace nahrávky, kdy popisujeme dvě rozdílná paradigmata možného přístupu, i-vektory a x-vektory. Druhá část práce se již více věnuje diskriminativním technikám pro zvýšení robustnosti. Techniky jsou organizovány tak, aby odpovídaly postupnému průchodu nahrávky rozpoznávacím systémem.  Nejdříve je věnována pozornost  předzpracování signálu pomocí neuronové sítě pro odšumění a obohacení signálu řeči jako univerzální technice, která je nezávislá na následně použitém rozpoznávacím systému.  Dále se zameřujeme na využití diskriminativního přístupu při extrakci příznaků a extrakci vektorových reprezentací nahrávek. Práce rovněž pokrývá přechod od generativního paradigmatu k plně diskriminativnímu přístupu v systémech pro rozpoznávání mluvčích.  Veškeré techniky jsou následně vždy experimentálně ověřeny a zhodnocen jejich přínos. V práci je navrženo několik přístupů, které se osvědčily jak u generativního přístupu v podobě i-vektorů, tak i u diskriminativních x-vektorů, a díky nim bylo dosaženo významného zlepšení. Pro úplnost jsou, v oblasti problematiky robustnosti, do práce zařazeny i další techniky, jako je normalizace skóre, či více-scénářové trénování systémů. Závěrem se práce zabývá problematikou robustnosti diskriminativních systému z pohledu dat využitých při jejich trénování.en
dc.description.abstractThis work deals with discriminative techniques in speaker verification systems to improve robustness of the systems against factors that negatively affect their performance. These factors include noise, reverberation, or the transmission channel. The thesis consists of two main parts. In the first part, it deals with a theoretical introduction to current state-of-the-art speaker verification systems. The recognition system's steps are described, starting from the extraction of acoustic features, the extraction of vector representations of recordings, and the final recognition score computation. Particular emphasis is paid to the techniques of extraction of a vector representation of a recording, where we describe two different paradigms: the i-vectors and the x-vectors. The second part of the work focuses more on discriminative techniques to increase robustness. Their description is organized to match the gradual passage of the recording through the verification system. First, attention is paid to signal pre-processing using a neural network for noise reduction and speech enhancement. This pre-processing is a universal technique independent of the verification system. The work follows by focusing on the use of a discriminative approach in the extraction of features and the extraction of vector representations of recordings. Furthermore, this work sheds light on the transition from generative systems to discriminative systems. In order to give a fuller context, the work also describes techniques that had historically preceded this transition. All presented techniques are always experimentally verified and their advantages evaluated. We are proposing several techniques that have proved successful in both the generative approach in the form of i-vectors and discriminative x-vectors, and thanks to them, considerable improvement has been achieved. For completeness, in the field of robustness, other techniques are included in the work, such as normalization of scores or multi-condition training. Finally, the work deals with the robustness of discriminative systems in terms of data used in their training.cs
dc.description.markPcs
dc.identifier.citationNOVOTNÝ, O. Zvyšování robustnosti systémů pro rozpoznávání mluvčích pomocí diskriminativních technik [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.cs
dc.identifier.other140955cs
dc.identifier.urihttp://hdl.handle.net/11012/203301
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectRozpoznávání mluvčíhoen
dc.subjectgenerativní trénováníen
dc.subjectdiskriminativní trénováníen
dc.subjectobohacování řečového signáluen
dc.subjecti-vektoren
dc.subjectx-vektoren
dc.subjectrobustnosten
dc.subjectšumen
dc.subjectreverberaceen
dc.subjectneuronové sítě.en
dc.subjectSpeaker verificationcs
dc.subjectgenerative trainingcs
dc.subjectdiscriminative trainingcs
dc.subjectspeech enhancementcs
dc.subjecti-vectorcs
dc.subjectx-vectorcs
dc.subjectrobustnesscs
dc.subjectnoisecs
dc.subjectreverberationcs
dc.subjectneural networks.cs
dc.titleZvyšování robustnosti systémů pro rozpoznávání mluvčích pomocí diskriminativních techniken
dc.title.alternativeImproving Robustness of Speaker Recognition using Discriminative Techniquescs
dc.typeTextcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
dcterms.dateAccepted2021-12-03cs
dcterms.modified2021-12-07-08:08:42cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid140955en
sync.item.dbtypeZPen
sync.item.insts2022.01.19 08:55:14en
sync.item.modts2022.01.19 08:14:31en
thesis.disciplineVýpočetní technika a informatikacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelDoktorskýcs
thesis.namePh.D.cs
Files
Original bundle
Now showing 1 - 5 of 5
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
7.17 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-1033_s1.pdf
Size:
72.27 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-1033_s1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-1033_o1.pdf
Size:
75.35 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-1033_o1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-1033_o2.pdf
Size:
48.35 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-1033_o2.pdf
Loading...
Thumbnail Image
Name:
review_140955.html
Size:
1.7 KB
Format:
Hypertext Markup Language
Description:
review_140955.html
Collections