VLACH, V. Automatické rozpoznávání hudebního zápisu pomocí neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Hradiš, Michal

Student se téma zajímal, pracoval průběžně, připravil kvalitní datové sady a otestoval end-to-end přístup k přepisu notových zápisů, který dosahuje dobrých výsledků. Na tématu bude pracovat i nadále s cílem vytvořit praktické OMR modul do PERO OCR, který bude uvolněn pro volné použití. Experimentů ale mohl zpracovat více, mohl lépe pochopit autoregresivní generativní modely a práci mohl dokončit s větším předstihem.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Téma přímo vychází z projektů zaměřených na rozpoznávání dokumentů, které ve skupině řešíme. Mým cílem bylo vyzkoušet  vytvořit co nejjednodušší (ve smyslu rozsahu zdrojových kódů) rozpoznávání notových zápisů, které by bylo v budoucnu možné integrovat do python balíčku PERO OCR. Tímto bylo určené zaměření na end-to-end přístupy. Student prokázal, že tyto přístupy jsou mohou dosahovat dobrých výsledků a zároveň nejsou potřeba velké změny PERO OCR. Student dobře připravil datové sady, definoval vhodná kódování notových zápisů a provedl sadu základních experimentů. Experimentů mohlo být více a mohl se snažit optimalizovat architekturu neuronové sítě spolu se způsoby augmentace trénovacích dat.
Práce s literaturou Student dobře pochopil téma a současný stav rozpoznávání hudebních zápisů. Naopak si mohl o trochu lépe nastudovat transformery a obecně autoregresivní generativní modely. Zdroje si student vyhledal samostatně, nastudoval je a v práci je dobře použil.
Aktivita během řešení, konzultace, komunikace Studenta téma zajímalo a pracoval na něm průběžně celý rok. Postup mohl být ale mírně rychlejší. Celkově se mi se studentem spolupracovalo dobře.
Aktivita při dokončování Konečné experimenty proběhly až poměrně blízko termínu odevzdání a také text práce student dokončoval několik dní před termínem odevzdání. Obsah textové zprávy student konzultoval, ale její finální podobu konzultoval už jen omezeně.
Publikační činnost, ocenění Během léta bude student svou práci dále rozvíjet v rámci NAKI projektu Orbis Pictus hlaně tak, aby systém dokázal zpracovat reálné tištěné notové zápisy. Plánujeme vytvořené modely uvolnit pod volnou licencí umožňující i komerční použití.
Navrhovaná známka
B
Body
85

Posudek oponenta

Kohút, Jan

Student experimentálně ověřil využitelnost systémů typu CTC a Transformer pro úlohu rozpoznávání hudby a to jak monofonní, tak polyfonní. Dosažené výsledky jsou srovnatelné se současným stavem poznání. Jako hlavní nedostatek hodnotím nedostatečně popsané využité technologie. Oceňuji vytvoření datasetu polyfonní hudby a experimentální ověření nevhodnosti systému CTC pro rozpoznávání polyfonní hudby. Oceňuji výzkum v málo prozkoumané oblasti rozpoznávání polyfonní hudby.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání
Rozsah splnění požadavků zadání
Rozsah technické zprávy
Prezentační úroveň technické zprávy 75 Popis současného poznání v rámci rozpoznávání hudebních zápisů a experimentů je logicky strukturován a dostatečně informativní. Popis neuronových sítí v rámci kapitoly 3 je velmi stručný, chybí rovnice a přesnější popis, zejména pak u CTC a architektury Transformer. Text místy obsahuje neinformativní subjektivní názory autora.
Formální úprava technické zprávy 75 Text práce je vypracována v prostředí Latex. Celkové rozložení jednotlivých textových částí a obrázků je v pořádku. V textu chybí reference na Obrázek 2.2. Reference na Obrázek 2.3 v podkapitole 2.1, na Tabulku 6.2 v podkapitole 5.2, na Tabulku 6.1 v podkapitole 6.4 jsou chybné. Podkapitola 2.2 obsahuje chybějící/prázdnou referenci.
Práce s literaturou 80 Student cituje relevantní zdroje, převzaté prvky jsou řádně odděleny od vlastní práce.
Realizační výstup 85 Student vytvořil nový dataset pro úlohu rozpoznávání polyfonní hudby, který je vhodný pro učení neuronových sítí. Student experimentálně srovnal architektury typu CTC a Transformer na úloze rozpoznání monofonní a polyfonní hudby. Dosažené výsledky jsou srovnatelné se současným stavem poznání. 
Využitelnost výsledků Práce je výzkumného charakteru. Dataset polyfonní hudby může být do budoucna využit pro vývoj nových systémů.
Navrhovaná známka
B
Body
80

Otázky

eVSKP id 146120