Speech Analysis for Processing of Musical Signals

Hlavním cílem této práce je obohatit hudební signály charakteristikami lidské řeči. Práce zahrnuje tvorbu audioefektu inspirovaného efektem talk-box: analýzu hlasového ústrojí vhodným algoritmem jako je lineární predikce, a aplikaci odhadnutého filtru na hudební audio-signál. Důraz je kladen na dokonalou kvalitu výstupu, malou latenci a nízkou výpočetní náročnost pro použití v reálném čase. Výstupem práce je softwarový plugin využitelný v profesionálních aplikacích pro úpravu audia a při využití vhodné hardwarové platformy také pro živé hraní. Plugin emuluje reálné zařízení typu talk-box a poskytuje podobnou kvalitu výstupu s unikátním zvukem.
The primary goal of the thesis is to enhance musical signals with signs of human speech. This involves the creation of an audio effect inspired by the talk-box, by analyzing the vocal tract with a suitable algorithm like linear prediction and applying the calculated filter to the musical audio signal. An emphasis is given to excellent output audio quality, low latency and small processing overhead for real-time use. The outcome is a usable software plug-in targeted to professional audio editing applications and for live performance as well using a suitable hardware platform. It will emulate the real talk-box equipment or provides similar audio quality with a unique sound.

Keywords

Lineární predikce, Audio syntéza, Kódování řeči, Modelování zvukových efektů, VST pluginy, LADSPA, DAW, Zpracování signálů, Linear prediction, Audio synthesis, Voice coding, Sound effects modeling, VST plugins, LADSPA, DAW, Signal processing

Citation

MÉSZÁROS, T. Speech Analysis for Processing of Musical Signals [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2015.

Language of document

en

Study field

Počítačová grafika a multimédia

Comittee

prof. Dr. Ing. Pavel Zemčík, dr. h. c. (předseda) prof. Dr. Ing. Jan Černocký (místopředseda) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen) prof. RNDr. Josef Šlapal, CSc. (člen) doc. Ing. Michal Španěl, Ph.D. (člen)

Date of acceptance

2015-06-23

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A Otázky u obhajoby: - Is the plugin applicable to instruments other than guitar? - How robust is the system against e.g. background noise, different mics, echo/reverb., etc. - Have you considered sub-frame division, e.g. 5ms for LSP/LSF interpolation to achieve a smoother LP envelope evolution? - The conclusion that min. 41 - 192 LP coefficients are needed to achieve accurate representation of the LP envelope seems not correct to me? Did you try measuring the spectral distance with Itakura-Saito? - Some spectral analysis of the "overdrive" effect would be welcome. What it does spectrally?

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení