Personal Voice Activity Detection

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Můžete ještě jednou upřesnit, v čem spočívá vaše rozšíření oproti původní metodě? Myslíte, že je možné zkombinovat tradiční metody s vaší metodou využívající neuronové sítě?cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorŠvec, Jánen
dc.contributor.authorSedláček, Šimonen
dc.contributor.refereeLandini, Federico Nicolásen
dc.date.created2021cs
dc.description.abstractCílem této práce je implementovat, otestovat a vyhodnotit řečníkem podmíněnou metodu pro detekci hlasu ( Voice Activity Detection , VAD) nazvanou Personal VAD. Pro detekci využívá tato metoda LSTM neuronových sítí a jejím účelem je vytvoření systému schopného spolehlivě detekovat řečové signály cílového řečníka při zachování vlastností typického VAD systému co se velikosti modelu, odezvy a nízkých nároků na zdroje týče. Systém je trénován pro klasifikaci řečových rámců do tří tříd: neřeč, řeč necílového a řeč cílového řečníka. Za tímto účelem využívá metoda speaker embedding vektory pro reprezentaci cílového řečníka jako součást vstupních příznaků. Některé z náročnějších variant systému využívají skórování rámců systémem pro verifikaci řečníka, což vede ke zvýšení spolehlivosti klasifikace. Vedle základní metody skórování představené v originálním článku byly navrženy dvě modifikace, jež základní metodu překonaly a zlepšily spolehlivost výsledného systému i v akusticky náročných prostředích.en
dc.description.abstractThis work aims to implement, test, and evaluate a speaker-conditioned Voice Activity Detection (VAD) method called Personal VAD. The method builds upon an LSTM-based approach to VAD and its purpose is to introduce a system that can reliably detect speech of a target speaker, while retaining the typical characteristics of a VAD system, mainly in terms of small model size, low latency, and low necessary computational resources. The system is trained to distinguish between three classes: non-speech, target speaker speech, and non-target speaker speech. For this purpose, the method utilizes speaker embeddings as a part of the input feature vector to represent the target speaker. Some of the more heavyweight personal VAD variants also make use of speaker verification scores issued to each frame based on the target embedding, resulting in a more robust system. In addition to the one scoring method presented in the original article, two other scoring approaches are introduced, both outperforming the baseline method and improving the performance even for acoustically challenging conditions.cs
dc.description.markAcs
dc.identifier.citationSEDLÁČEK, Š. Personal Voice Activity Detection [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.cs
dc.identifier.other136459cs
dc.identifier.urihttp://hdl.handle.net/11012/198920
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectdetekce hlasové aktivityen
dc.subjectdetekce řečien
dc.subjectrekurentní neuronové sítěen
dc.subjectlong short-term memoryen
dc.subjectLSTMen
dc.subjectrozpoznání mluvčíhoen
dc.subjectspeaker embeddingsen
dc.subjectd-vectoren
dc.subjectvoice activity detectioncs
dc.subjectspeech detectioncs
dc.subjectrecurrent neural networkscs
dc.subjectlong short-term memorycs
dc.subjectLSTMcs
dc.subjectspeaker recognitioncs
dc.subjectspeaker embeddingscs
dc.subjectd-vectorcs
dc.titlePersonal Voice Activity Detectionen
dc.title.alternativePersonal Voice Activity Detectioncs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2021-06-16cs
dcterms.modified2021-06-17-14:25:03cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid136459en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:33:51en
sync.item.modts2025.01.15 15:52:27en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs

Files

Original bundle

Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.41 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-23426_v.pdf
Size:
85.75 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-23426_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-23426_o.pdf
Size:
86.18 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-23426_o.pdf
Loading...
Thumbnail Image
Name:
review_136459.html
Size:
1.44 KB
Format:
Hypertext Markup Language
Description:
file review_136459.html

Collections