Identifikace hudby, řeči, křiku, zpěvu v audio (video) záznamu

but.committeedoc. Dr. Ing. Dušan Kolář (předseda) prof. Ing. Tomáš Hruška, CSc. (místopředseda) Ing. Miroslav Balík, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) doc. Ing. Jaroslav Zendulka, CSc. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm dobře C. Otázky u obhajoby: 1) Can you explain how you back-propagate the error in your multi-task setup? There is no mathematical background in your thesis. 2) You often use the expression "events correlated to speech". Can you clearly explain what you mean and how you define such events? 3) Do you have any explanation why under-sampling of data helps?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSzőke, Igorcs
dc.contributor.authorDanko, Michalcs
dc.contributor.refereeMalenovský, Vladimírcs
dc.date.created2016cs
dc.description.abstractTato práce navazuje na trend posledních desetiletí ve využívaní neuronových sítí za účelem odhalení řeči v zašuměných datech. Text začíná základními poznatky o probíraných tématech, jako jsou audio příznaky, strojové učení a neuronové sítě. Síťové parametry jsou zkoumány s cílem poskytnout nejvhodnější zázemí pro experimenty. Hlavní úkol experimentů je sledovat vliv různých zvukových událostí na detekci řeči na malé a různorodé databáze. Přičemž se ukázalo, že nejvýhodnější jsou zvukové události v korelaci s řečí. Kromě toho, přesnost akustických událostí, dříve použita pouze jako doplněk k přesnosti řeči, je také součástí experimentování. Experiment zkoumání datových sad rozšiřených o více spravedlivě rozděleny data ukázal, že samotné rozšiření nezaručuje zlepšení. Na závěr, poslední experiment demonstruje, že síti se skutečně podařilo naučit, jak předpovědět hlasové aktivity v obou případech čistých i zašuměných dat.cs
dc.description.abstractThis thesis follows the trend of last decades in using neural networks in order to detect speech in noisy data. The text begins with basic knowledge about discussed topics, such as audio features, machine learning and neural networks. The network parameters are examined in order to provide the most suitable background for the experiments. The main focus of the experiments is to observe the influence of various sound events on the speech detection on a small, diverse database. Where the sound events correlated to the speech proved to be the most beneficial. In addition, the accuracy of the acoustic events, previously used only as a supplement to the speech, is also a part of experimentation. The experiment of examining the extending of the datasets by more fairly distributed data shows that it doesn't guarantee an improvement. And finally, the last experiment demonstrates that the network indeed succeeded in learning how to predict voice activity in both clean and noisy data.en
dc.description.markCcs
dc.identifier.citationDANKO, M. Identifikace hudby, řeči, křiku, zpěvu v audio (video) záznamu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016.cs
dc.identifier.other96249cs
dc.identifier.urihttp://hdl.handle.net/11012/61800
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectNeurální sítěcs
dc.subjectřečcs
dc.subjectšumcs
dc.subjectdetekce zvukových událostícs
dc.subjectdetekce hlasové aktivitycs
dc.subjectTheanocs
dc.subjectvíceúčelové sítěcs
dc.subjectNeural networksen
dc.subjectspeechen
dc.subjectnoiseen
dc.subjectacoustic event detectionen
dc.subjectvoice activity detectionen
dc.subjectTheanoen
dc.subjectmulti-task networksen
dc.titleIdentifikace hudby, řeči, křiku, zpěvu v audio (video) záznamucs
dc.title.alternativeMusic, Speech, Crying, Singing Detection in Audio (Video)en
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2016-06-23cs
dcterms.modified2020-05-10-16:12:03cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid96249en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 15:21:30en
sync.item.modts2025.01.15 22:38:18en
thesis.disciplineInformační systémycs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.82 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-17411_v.pdf
Size:
85.92 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-17411_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-17411_o.pdf
Size:
88.58 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-17411_o.pdf
Loading...
Thumbnail Image
Name:
review_96249.html
Size:
1.46 KB
Format:
Hypertext Markup Language
Description:
file review_96249.html
Collections