Personal Voice Activity Detection
| but.committee | prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) | cs |
| but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Můžete ještě jednou upřesnit, v čem spočívá vaše rozšíření oproti původní metodě? Myslíte, že je možné zkombinovat tradiční metody s vaší metodou využívající neuronové sítě? | cs |
| but.jazyk | angličtina (English) | |
| but.program | Informační technologie | cs |
| but.result | práce byla úspěšně obhájena | cs |
| dc.contributor.advisor | Švec, Ján | en |
| dc.contributor.author | Sedláček, Šimon | en |
| dc.contributor.referee | Landini, Federico Nicolás | en |
| dc.date.created | 2021 | cs |
| dc.description.abstract | Cílem této práce je implementovat, otestovat a vyhodnotit řečníkem podmíněnou metodu pro detekci hlasu ( Voice Activity Detection , VAD) nazvanou Personal VAD. Pro detekci využívá tato metoda LSTM neuronových sítí a jejím účelem je vytvoření systému schopného spolehlivě detekovat řečové signály cílového řečníka při zachování vlastností typického VAD systému co se velikosti modelu, odezvy a nízkých nároků na zdroje týče. Systém je trénován pro klasifikaci řečových rámců do tří tříd: neřeč, řeč necílového a řeč cílového řečníka. Za tímto účelem využívá metoda speaker embedding vektory pro reprezentaci cílového řečníka jako součást vstupních příznaků. Některé z náročnějších variant systému využívají skórování rámců systémem pro verifikaci řečníka, což vede ke zvýšení spolehlivosti klasifikace. Vedle základní metody skórování představené v originálním článku byly navrženy dvě modifikace, jež základní metodu překonaly a zlepšily spolehlivost výsledného systému i v akusticky náročných prostředích. | en |
| dc.description.abstract | This work aims to implement, test, and evaluate a speaker-conditioned Voice Activity Detection (VAD) method called Personal VAD. The method builds upon an LSTM-based approach to VAD and its purpose is to introduce a system that can reliably detect speech of a target speaker, while retaining the typical characteristics of a VAD system, mainly in terms of small model size, low latency, and low necessary computational resources. The system is trained to distinguish between three classes: non-speech, target speaker speech, and non-target speaker speech. For this purpose, the method utilizes speaker embeddings as a part of the input feature vector to represent the target speaker. Some of the more heavyweight personal VAD variants also make use of speaker verification scores issued to each frame based on the target embedding, resulting in a more robust system. In addition to the one scoring method presented in the original article, two other scoring approaches are introduced, both outperforming the baseline method and improving the performance even for acoustically challenging conditions. | cs |
| dc.description.mark | A | cs |
| dc.identifier.citation | SEDLÁČEK, Š. Personal Voice Activity Detection [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021. | cs |
| dc.identifier.other | 136459 | cs |
| dc.identifier.uri | http://hdl.handle.net/11012/198920 | |
| dc.language.iso | en | cs |
| dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
| dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
| dc.subject | detekce hlasové aktivity | en |
| dc.subject | detekce řeči | en |
| dc.subject | rekurentní neuronové sítě | en |
| dc.subject | long short-term memory | en |
| dc.subject | LSTM | en |
| dc.subject | rozpoznání mluvčího | en |
| dc.subject | speaker embeddings | en |
| dc.subject | d-vector | en |
| dc.subject | voice activity detection | cs |
| dc.subject | speech detection | cs |
| dc.subject | recurrent neural networks | cs |
| dc.subject | long short-term memory | cs |
| dc.subject | LSTM | cs |
| dc.subject | speaker recognition | cs |
| dc.subject | speaker embeddings | cs |
| dc.subject | d-vector | cs |
| dc.title | Personal Voice Activity Detection | en |
| dc.title.alternative | Personal Voice Activity Detection | cs |
| dc.type | Text | cs |
| dc.type.driver | bachelorThesis | en |
| dc.type.evskp | bakalářská práce | cs |
| dcterms.dateAccepted | 2021-06-16 | cs |
| dcterms.modified | 2021-06-17-14:25:03 | cs |
| eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
| sync.item.dbid | 136459 | en |
| sync.item.dbtype | ZP | en |
| sync.item.insts | 2025.03.18 19:33:51 | en |
| sync.item.modts | 2025.01.15 15:52:27 | en |
| thesis.discipline | Informační technologie | cs |
| thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
| thesis.level | Bakalářský | cs |
| thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 2.41 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-23426_v.pdf
- Size:
- 85.75 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-23426_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-23426_o.pdf
- Size:
- 86.18 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-23426_o.pdf
Loading...
- Name:
- review_136459.html
- Size:
- 1.44 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_136459.html
