Syntéza ruchů pomocí neuronových sítí

Loading...
Thumbnail Image
Date
Authors
Pospíšil, Tomáš
ORCID
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Tato práce zkoumá využití moderních technologií pro tvorbu zvukových ruchových efektů, konkrétně jejich syntézu pomocí neuronových sítí a metod diferencovatelného digitálního zpracování signálu (DDSP). Tato technologie umožňuje kombinaci tradičních zvukových procesů s pokročilým strojovým učením, díky čemuž mohou být implementovány modely schopné generovat nové realistické zvuky. Pro tyto účely byly využity architektury NoiseBandNet a DDSP. Součástí práce bylo vytvoření trénovacích datasetů, částečně za pomocí simulátoru BeamNG.drive, pomocí kterých byly natrénovány a otestovány modely a jejich výstupy byly porovnány na základě objektivních metrik i subjektivních poslechových testů. Samotná práce ukazuje potencíál technologie DDSP pro pokročilé aplikace v oblasti zvukové syntézy.
This thesis explores the use of modern technologies for creating sound noise-like effects, specifically their synthesis using neural networks and methods of Differentiable Digital Signal Processing (DDSP). This technology enables the combination of traditional audio processing techniques with advanced machine learning, allowing the implementation of models capable of generating new realistic sounds. For this purpose, the architectures NoiseBandNet and DDSP were utilized. The work includes the creation of training datasets, partly generated using the BeamNG.drive simulator, which were used to train and test the models. Their outputs were evaluated based on objective metrics as well as subjective listening tests. The thesis demonstrates the potential of DDSP technology for advanced applications in the field of sound synthesis
Description
Citation
POSPÍŠIL, T. Syntéza ruchů pomocí neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Zvuková produkce a nahrávání
Comittee
doc. Ing. Jiří Schimmel, Ph.D. (předseda) doc. Ing. Petr Sysel, Ph.D. (místopředseda) MgA. Michal Indrák, Ph.D. (člen) Ing. MgA. Jana Jelínková (člen) Ing. Jaromír Mačák, Ph.D. (člen)
Date of acceptance
2025-06-12
Defence
Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci s výhradami a odpověděl na otázky členů komise a oponenta. Otázky oponenta: 1) Jak jste implementoval poslechový test MUSHRA? Odkud jste čerpal inspiraci/kód? 2) Co Vás vedlo k fixní hodnotě 10 a 20 tisíc epoch pro trénování modelů? V práci tvrdíte, že větší množství epoch by mělo zlepšit výsledky, ale rozdíly mezi modely uvedené v obrázcích 6.7 a 6.8 to nenaznačují. Jste si jistý, že větší množství epoch pomůže? Jakými způsoby byste v budoucnu byl schopen zajistit teoreticky lepší výsledky? 3) Zkuste natrénovat stejné modely ještě s větším množstvím epoch a sám porovnat subjektivní kvalitu výstupních zvuků. Dle Vašich informací o trénování uvedených sítí by to nemělo zabrat více než dva dny. Otázky komise: 1) Je možné do procesu učení integrovat modul s omezeným definičním oborem?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO