VLACH, V. Automatické rozpoznávání hudebního zápisu pomocí neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Student se téma zajímal, pracoval průběžně, připravil kvalitní datové sady a otestoval end-to-end přístup k přepisu notových zápisů, který dosahuje dobrých výsledků. Na tématu bude pracovat i nadále s cílem vytvořit praktické OMR modul do PERO OCR, který bude uvolněn pro volné použití. Experimentů ale mohl zpracovat více, mohl lépe pochopit autoregresivní generativní modely a práci mohl dokončit s větším předstihem.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Téma přímo vychází z projektů zaměřených na rozpoznávání dokumentů, které ve skupině řešíme. Mým cílem bylo vyzkoušet vytvořit co nejjednodušší (ve smyslu rozsahu zdrojových kódů) rozpoznávání notových zápisů, které by bylo v budoucnu možné integrovat do python balíčku PERO OCR. Tímto bylo určené zaměření na end-to-end přístupy. Student prokázal, že tyto přístupy jsou mohou dosahovat dobrých výsledků a zároveň nejsou potřeba velké změny PERO OCR. Student dobře připravil datové sady, definoval vhodná kódování notových zápisů a provedl sadu základních experimentů. Experimentů mohlo být více a mohl se snažit optimalizovat architekturu neuronové sítě spolu se způsoby augmentace trénovacích dat. | ||
Práce s literaturou | Student dobře pochopil téma a současný stav rozpoznávání hudebních zápisů. Naopak si mohl o trochu lépe nastudovat transformery a obecně autoregresivní generativní modely. Zdroje si student vyhledal samostatně, nastudoval je a v práci je dobře použil. | ||
Aktivita během řešení, konzultace, komunikace | Studenta téma zajímalo a pracoval na něm průběžně celý rok. Postup mohl být ale mírně rychlejší. Celkově se mi se studentem spolupracovalo dobře. | ||
Aktivita při dokončování | Konečné experimenty proběhly až poměrně blízko termínu odevzdání a také text práce student dokončoval několik dní před termínem odevzdání. Obsah textové zprávy student konzultoval, ale její finální podobu konzultoval už jen omezeně. | ||
Publikační činnost, ocenění | Během léta bude student svou práci dále rozvíjet v rámci NAKI projektu Orbis Pictus hlaně tak, aby systém dokázal zpracovat reálné tištěné notové zápisy. Plánujeme vytvořené modely uvolnit pod volnou licencí umožňující i komerční použití. |
Student experimentálně ověřil využitelnost systémů typu CTC a Transformer pro úlohu rozpoznávání hudby a to jak monofonní, tak polyfonní. Dosažené výsledky jsou srovnatelné se současným stavem poznání. Jako hlavní nedostatek hodnotím nedostatečně popsané využité technologie. Oceňuji vytvoření datasetu polyfonní hudby a experimentální ověření nevhodnosti systému CTC pro rozpoznávání polyfonní hudby. Oceňuji výzkum v málo prozkoumané oblasti rozpoznávání polyfonní hudby.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | |||
Rozsah splnění požadavků zadání | |||
Rozsah technické zprávy | |||
Prezentační úroveň technické zprávy | 75 | Popis současného poznání v rámci rozpoznávání hudebních zápisů a experimentů je logicky strukturován a dostatečně informativní. Popis neuronových sítí v rámci kapitoly 3 je velmi stručný, chybí rovnice a přesnější popis, zejména pak u CTC a architektury Transformer. Text místy obsahuje neinformativní subjektivní názory autora. | |
Formální úprava technické zprávy | 75 | Text práce je vypracována v prostředí Latex. Celkové rozložení jednotlivých textových částí a obrázků je v pořádku. V textu chybí reference na Obrázek 2.2. Reference na Obrázek 2.3 v podkapitole 2.1, na Tabulku 6.2 v podkapitole 5.2, na Tabulku 6.1 v podkapitole 6.4 jsou chybné. Podkapitola 2.2 obsahuje chybějící/prázdnou referenci. | |
Práce s literaturou | 80 | Student cituje relevantní zdroje, převzaté prvky jsou řádně odděleny od vlastní práce. | |
Realizační výstup | 85 | Student vytvořil nový dataset pro úlohu rozpoznávání polyfonní hudby, který je vhodný pro učení neuronových sítí. Student experimentálně srovnal architektury typu CTC a Transformer na úloze rozpoznání monofonní a polyfonní hudby. Dosažené výsledky jsou srovnatelné se současným stavem poznání. | |
Využitelnost výsledků | Práce je výzkumného charakteru. Dataset polyfonní hudby může být do budoucna využit pro vývoj nových systémů. |
eVSKP id 146120