Speech Analysis for Processing of Musical Signals
Loading...
Date
Authors
Mészáros, Tomáš
ORCID
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Hlavním cílem této práce je obohatit hudební signály charakteristikami lidské řeči. Práce zahrnuje tvorbu audioefektu inspirovaného efektem talk-box: analýzu hlasového ústrojí vhodným algoritmem jako je lineární predikce, a aplikaci odhadnutého filtru na hudební audio-signál. Důraz je kladen na dokonalou kvalitu výstupu, malou latenci a nízkou výpočetní náročnost pro použití v reálném čase. Výstupem práce je softwarový plugin využitelný v profesionálních aplikacích pro úpravu audia a při využití vhodné hardwarové platformy také pro živé hraní. Plugin emuluje reálné zařízení typu talk-box a poskytuje podobnou kvalitu výstupu s unikátním zvukem.
The primary goal of the thesis is to enhance musical signals with signs of human speech. This involves the creation of an audio effect inspired by the talk-box, by analyzing the vocal tract with a suitable algorithm like linear prediction and applying the calculated filter to the musical audio signal. An emphasis is given to excellent output audio quality, low latency and small processing overhead for real-time use. The outcome is a usable software plug-in targeted to professional audio editing applications and for live performance as well using a suitable hardware platform. It will emulate the real talk-box equipment or provides similar audio quality with a unique sound.
The primary goal of the thesis is to enhance musical signals with signs of human speech. This involves the creation of an audio effect inspired by the talk-box, by analyzing the vocal tract with a suitable algorithm like linear prediction and applying the calculated filter to the musical audio signal. An emphasis is given to excellent output audio quality, low latency and small processing overhead for real-time use. The outcome is a usable software plug-in targeted to professional audio editing applications and for live performance as well using a suitable hardware platform. It will emulate the real talk-box equipment or provides similar audio quality with a unique sound.
Description
Citation
MÉSZÁROS, T. Speech Analysis for Processing of Musical Signals [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2015.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Počítačová grafika a multimédia
Comittee
prof. Dr. Ing. Pavel Zemčík, dr. h. c. (předseda)
prof. Dr. Ing. Jan Černocký (místopředseda)
RNDr. Marek Rychlý, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)
prof. RNDr. Josef Šlapal, CSc. (člen)
doc. Ing. Michal Španěl, Ph.D. (člen)
Date of acceptance
2015-06-23
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A Otázky u obhajoby: - Is the plugin applicable to instruments other than guitar? - How robust is the system against e.g. background noise, different mics, echo/reverb., etc. - Have you considered sub-frame division, e.g. 5ms for LSP/LSF interpolation to achieve a smoother LP envelope evolution? - The conclusion that min. 41 - 192 LP coefficients are needed to achieve accurate representation of the LP envelope seems not correct to me? Did you try measuring the spectral distance with Itakura-Saito? - Some spectral analysis of the "overdrive" effect would be welcome. What it does spectrally?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení