Synchronizace symbolického zápisu s hudebními interpretacemi

but.committeedoc. Ing. Kamil Říha, Ph.D. (předseda) Doc.Ing.MgA. Ondřej Urban, Ph.D. (místopředseda) Ing. Petr Honzík, Ph.D. (člen) Ing.MgA. Edgar Mojdl, Ph.D. (člen) Ing. Matěj Ištvánek, Ph.D. (člen)cs
but.defenceStudent prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta. Jakým způsobem byste realizoval rozšíření datasetu o „ground truth“ synchronizované MIDI verze nahrávek? Student dostatečně vysvětlil otázku.cs
but.jazykčeština (Czech)
but.programAudio inženýrstvícs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorIštvánek, Matějcs
dc.contributor.authorNěmec, Petrcs
dc.contributor.refereeMiklánek, Štěpáncs
dc.date.accessioned2025-06-13T03:59:29Z
dc.date.available2025-06-13T03:59:29Z
dc.date.created2025cs
dc.description.abstractTato diplomová práce se zabývá vývojem a vyhodnocením synchronizačního procesu, který nepracuje v reálném čase. Proces je určen pro synchronizaci symbolického hudebního zápisu (ve formátu MIDI) s odpovídajícími zvukovými nahrávkami. Cílem je propojit dvě odlišné reprezentace hudby pomocí optimální cesty borcení, která popisuje výrazové odchylky v interpretaci. Základ synchronizačního procesu tvoří algoritmus dynamického borcení časové osy (anglicky Dynamic Time Warping), který vyhledává cestu borcení mezi chroma příznaky extrahovanými ze zvukového signálu a symbolického zápisu. Pro výpočet těchto příznaků byly využity dvě metody spektrální analýzy – Krátkodobá Fourierova Transformace (STFT) a Konstantní-Q Transforamce (CQT) s ručně vyladěným poměrem rozlišení časové a frekvenční osy pro nejlepší, nebo univerzální, výsledky. Byla vytvořena modulární implementace v jazyce Python umožňující převod dat, zarovnání, sonifikaci a vizuální porovnání výsledků. Pro účely testování a ladění algoritmu byl navržen a vytvořen vlastní dataset s různorodým hudebním materiálem, zahrnujícím různé textury, míru expresivity a nástrojové obsazení. Dataset obsahuje i záměrně nesprávně zarovnané interpretace, které slouží k testování odolnosti navržených metod. Kvalita zarovnání byla hodnocena pomocí metrik založených na detekci úderů, které umožňují porovnat syntetizovaný MIDI výstup s originální nahrávkou bez nutnosti ruční anotace referenčního zarovnání. Mezi použité metriky patří DTW divergence, střední absolutní chyba, korelace a chyba v poloze vrcholů úderů. Výsledky ukazují, že CQT je ve většině hudebních kontextů přesnější než STFT, zejména u harmonicky bohatších skladeb, zatímco STFT poskytuje konkurenceschopné výsledky u perkusivních a transietních signálů. Výstupem práce je nejen funkční synchronizační rámec, ale také nová metodika poloautomatického hodnocení kvality zarovnání, která může být dále využita v oblasti synchronizace hudby a hudební analýzy.cs
dc.description.abstractThis thesis presents the development and evaluation of an offline synchronization pipeline for aligning symbolic musical notation (in MIDI format) with corresponding audio recordings. The goal is to bridge these two distinct representations of musical data by computing an optimal temporal alignment that accounts for expressive variations in performance. The synchronization process is based on the Dynamic Time Warping (DTW) algorithm, which computes a warping path between chroma features extracted from both the audio signal and the symbolic score. Two spectral analysis methods—Short-Time Fourier Transform (STFT) and Constant-Q Transform (CQT), were employed to extract chroma representations with handoptimized time–frequency trade-offs for best or most robust performace. A modular Python implementation was developed, allowing for conversion, alignment, sonification, and visual comparison of results. To evaluate the effectiveness of the synchronization pipeline, a custom dataset was created, featuring various levels of texture, expressivity, and instrumentation. Both correct and intentionally misaligned audio interpretations were included to test the robustness of the proposed methods. The alignment quality was assessed using a combination of novelty-based evaluation metrics, including DTW divergence, mean absolute error, cross-correlation, and peak alignment error—computed without the need for manually annotated ground truth. Results show that CQT-based features generally outperform STFT in harmonically rich contexts, while STFT remains competitive in transient-heavy passages. This work contributes a reproducible framework for symbolic–audio alignment and a novel semi-automatic evaluation methodology that can support further research in music synchronization and analysis.en
dc.description.markAcs
dc.identifier.citationNĚMEC, P. Synchronizace symbolického zápisu s hudebními interpretacemi [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.cs
dc.identifier.other167434cs
dc.identifier.urihttps://hdl.handle.net/11012/252320
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectsynchronizace notového zápisu se zvukemcs
dc.subjectDTWcs
dc.subjectoptimální cesta borcení časové osycs
dc.subjectchroma příznakycs
dc.subjectspektrální novostcs
dc.subjectSTFTcs
dc.subjectCQTcs
dc.subjectMIDIcs
dc.subjectsymbolická hudební datacs
dc.subjectzískávání informací z hudbycs
dc.subjectzpracování zvukových signálůcs
dc.subjectscore-to-audio synchronizationen
dc.subjectDynamic Time Warping (DTW)en
dc.subjectoptimal warping pathen
dc.subjectchroma featuresen
dc.subjectShort-Time Fourier Transform (STFT)en
dc.subjectConstant-Q Transform (CQT)en
dc.subjectsymbolic music representationen
dc.subjectMusic Information Retrieval (MIR)en
dc.subjectaudio signal processingen
dc.titleSynchronizace symbolického zápisu s hudebními interpretacemics
dc.title.alternativeSynchronization of symbolic notation with musical interpretationsen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2025-06-12cs
dcterms.modified2025-06-12-15:46:34cs
eprints.affiliatedInstitution.facultyFakulta elektrotechniky a komunikačních technologiícs
sync.item.dbid167434en
sync.item.dbtypeZPen
sync.item.insts2025.06.13 05:59:29en
sync.item.modts2025.06.13 05:33:51en
thesis.disciplineZvuková produkce a nahrávánícs
thesis.grantorVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikacícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
3.71 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_167434.html
Size:
5.28 KB
Format:
Hypertext Markup Language
Description:
file review_167434.html
Collections