Vytvoření databáze uměle zašumených audionahrávek v akusticky kontrolované místnosti
Loading...
Date
Authors
ORCID
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
V této bakalářské práci se zabývám tvorbou databáze zvukových nahrávek a následným vytvoření databáze nahrávek hlasu, které byly nahrány v bezodrazové komoře. Databáze byla vytvořena tak, aby mohla být použita pro učení neuronové sítě s cílem oddělit řeč od hluku pozadí. Z tohoto důvodu jsou součástí databáze i záznamy hluků, které slouží pro umělé zašumění nahrávek hlasu. Dataset zahrnuje nahrávky 18 řečníků ve věku od 16 do 76 let. Polovina řečníků byli muži, polovina ženy. Dataset obsahuje 405 nahrávek hlasu o průměrné délce 46,7 vteřin a celkové délce 315 minut. Kombinací každé nahrávky hlasu s každou nahrávkou šumu ve třech úrovních odstupu signálu od šumu vzniklo 7290 uměle zašumených nahrávek hlasu.
This bachelor thesis deals with theory of creating the database of sound records and subsequent creating the database of speech records in the anechoic chamber. Database was created as training dataset for learning process of the artificial neural network, which will be able to separate the speech from background noise. Therefore as the part of the database there are also the recordings of various types of noise that will be used as background noise for the voice recordings. The dataset contains records taken from 18 speakers aged from 16 to 76 years. Half of the speakers were men, half women. Database contains 405 records of speach of average length 46,7 secons and total length 315 minutes. By combining each speech record with each noise record at three levels of signal-to-noise ratio was created 7290 mixed records.
This bachelor thesis deals with theory of creating the database of sound records and subsequent creating the database of speech records in the anechoic chamber. Database was created as training dataset for learning process of the artificial neural network, which will be able to separate the speech from background noise. Therefore as the part of the database there are also the recordings of various types of noise that will be used as background noise for the voice recordings. The dataset contains records taken from 18 speakers aged from 16 to 76 years. Half of the speakers were men, half women. Database contains 405 records of speach of average length 46,7 secons and total length 315 minutes. By combining each speech record with each noise record at three levels of signal-to-noise ratio was created 7290 mixed records.
Description
Citation
HÁJEK, V. Vytvoření databáze uměle zašumených audionahrávek v akusticky kontrolované místnosti [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2017.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Audio inženýrství
Comittee
prof. Ing. Zdeněk Smékal, CSc. (předseda)
doc. Ing. Kamil Říha, Ph.D. (místopředseda)
MgA. Michal Indrák, Ph.D. (člen)
Ing. Ondřej Krajsa, Ph.D. (člen)
Mgr. Jan Košulič (člen)
Date of acceptance
2017-06-21
Defence
Pokud by někdo chtěl tuto databázi rozšířit o další nahrávky, jaké postupy je potřeba dodržet, aby nové vzorky byli stejné, nebo dostačující kvality?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení