Synchronizace symbolického zápisu s hudebními interpretacemi
Loading...
Date
Authors
Němec, Petr
ORCID
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Tato diplomová práce se zabývá vývojem a vyhodnocením synchronizačního procesu, který nepracuje v reálném čase. Proces je určen pro synchronizaci symbolického hudebního zápisu (ve formátu MIDI) s odpovídajícími zvukovými nahrávkami. Cílem je propojit dvě odlišné reprezentace hudby pomocí optimální cesty borcení, která popisuje výrazové odchylky v interpretaci. Základ synchronizačního procesu tvoří algoritmus dynamického borcení časové osy (anglicky Dynamic Time Warping), který vyhledává cestu borcení mezi chroma příznaky extrahovanými ze zvukového signálu a symbolického zápisu. Pro výpočet těchto příznaků byly využity dvě metody spektrální analýzy – Krátkodobá Fourierova Transformace (STFT) a Konstantní-Q Transforamce (CQT) s ručně vyladěným poměrem rozlišení časové a frekvenční osy pro nejlepší, nebo univerzální, výsledky. Byla vytvořena modulární implementace v jazyce Python umožňující převod dat, zarovnání, sonifikaci a vizuální porovnání výsledků. Pro účely testování a ladění algoritmu byl navržen a vytvořen vlastní dataset s různorodým hudebním materiálem, zahrnujícím různé textury, míru expresivity a nástrojové obsazení. Dataset obsahuje i záměrně nesprávně zarovnané interpretace, které slouží k testování odolnosti navržených metod. Kvalita zarovnání byla hodnocena pomocí metrik založených na detekci úderů, které umožňují porovnat syntetizovaný MIDI výstup s originální nahrávkou bez nutnosti ruční anotace referenčního zarovnání. Mezi použité metriky patří DTW divergence, střední absolutní chyba, korelace a chyba v poloze vrcholů úderů. Výsledky ukazují, že CQT je ve většině hudebních kontextů přesnější než STFT, zejména u harmonicky bohatších skladeb, zatímco STFT poskytuje konkurenceschopné výsledky u perkusivních a transietních signálů. Výstupem práce je nejen funkční synchronizační rámec, ale také nová metodika poloautomatického hodnocení kvality zarovnání, která může být dále využita v oblasti synchronizace hudby a hudební analýzy.
This thesis presents the development and evaluation of an offline synchronization pipeline for aligning symbolic musical notation (in MIDI format) with corresponding audio recordings. The goal is to bridge these two distinct representations of musical data by computing an optimal temporal alignment that accounts for expressive variations in performance. The synchronization process is based on the Dynamic Time Warping (DTW) algorithm, which computes a warping path between chroma features extracted from both the audio signal and the symbolic score. Two spectral analysis methods—Short-Time Fourier Transform (STFT) and Constant-Q Transform (CQT), were employed to extract chroma representations with handoptimized time–frequency trade-offs for best or most robust performace. A modular Python implementation was developed, allowing for conversion, alignment, sonification, and visual comparison of results. To evaluate the effectiveness of the synchronization pipeline, a custom dataset was created, featuring various levels of texture, expressivity, and instrumentation. Both correct and intentionally misaligned audio interpretations were included to test the robustness of the proposed methods. The alignment quality was assessed using a combination of novelty-based evaluation metrics, including DTW divergence, mean absolute error, cross-correlation, and peak alignment error—computed without the need for manually annotated ground truth. Results show that CQT-based features generally outperform STFT in harmonically rich contexts, while STFT remains competitive in transient-heavy passages. This work contributes a reproducible framework for symbolic–audio alignment and a novel semi-automatic evaluation methodology that can support further research in music synchronization and analysis.
This thesis presents the development and evaluation of an offline synchronization pipeline for aligning symbolic musical notation (in MIDI format) with corresponding audio recordings. The goal is to bridge these two distinct representations of musical data by computing an optimal temporal alignment that accounts for expressive variations in performance. The synchronization process is based on the Dynamic Time Warping (DTW) algorithm, which computes a warping path between chroma features extracted from both the audio signal and the symbolic score. Two spectral analysis methods—Short-Time Fourier Transform (STFT) and Constant-Q Transform (CQT), were employed to extract chroma representations with handoptimized time–frequency trade-offs for best or most robust performace. A modular Python implementation was developed, allowing for conversion, alignment, sonification, and visual comparison of results. To evaluate the effectiveness of the synchronization pipeline, a custom dataset was created, featuring various levels of texture, expressivity, and instrumentation. Both correct and intentionally misaligned audio interpretations were included to test the robustness of the proposed methods. The alignment quality was assessed using a combination of novelty-based evaluation metrics, including DTW divergence, mean absolute error, cross-correlation, and peak alignment error—computed without the need for manually annotated ground truth. Results show that CQT-based features generally outperform STFT in harmonically rich contexts, while STFT remains competitive in transient-heavy passages. This work contributes a reproducible framework for symbolic–audio alignment and a novel semi-automatic evaluation methodology that can support further research in music synchronization and analysis.
Description
Keywords
synchronizace notového zápisu se zvukem, DTW, optimální cesta borcení časové osy, chroma příznaky, spektrální novost, STFT, CQT, MIDI, symbolická hudební data, získávání informací z hudby, zpracování zvukových signálů, score-to-audio synchronization, Dynamic Time Warping (DTW), optimal warping path, chroma features, Short-Time Fourier Transform (STFT), Constant-Q Transform (CQT), symbolic music representation, Music Information Retrieval (MIR), audio signal processing
Citation
NĚMEC, P. Synchronizace symbolického zápisu s hudebními interpretacemi [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Zvuková produkce a nahrávání
Comittee
doc. Ing. Kamil Říha, Ph.D. (předseda)
Doc.Ing.MgA. Ondřej Urban, Ph.D. (místopředseda)
Ing. Petr Honzík, Ph.D. (člen)
Ing.MgA. Edgar Mojdl, Ph.D. (člen)
Ing. Matěj Ištvánek, Ph.D. (člen)
Date of acceptance
2025-06-12
Defence
Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta.
Jakým způsobem byste realizoval rozšíření datasetu o „ground truth“ synchronizované MIDI verze nahrávek?
Student dostatečně vysvětlil otázku.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení