SYCHRA, J. Strojové učení v audio efektech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Hodnotím zodpovědný přístup k práci, slušné výsledky, psaní v angličtině a článek na Excel, pro nejlepší hodnocení A chyběl teoretičtější vhled do zpracování signálů a ML a lepší kvalita prvních verzí textů technické zprávy.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Zadání bylo definováno studentem s hlubokým zájmem o hudbu, kytarové efekty a strojové učení (ML), zahrnovalo studium zpracování signálů a netriviálních technik ML. | ||
Práce s literaturou | Student samostatně pracoval se zdroji, základem byly nové články kombinující ML a separaci hudebních zdrojů, tedy témata, která nejsou v bakalářském studiu pokryta standardními kursy, student na jejich základě dokázal přijít s originálním přístupem (klasifikační i regresní hlavy) k řešení tématu. | ||
Aktivita během řešení, konzultace, komunikace | Oceňuji příkladnou aktivitu, pravidelnou komunikaci a zodpovědnost, se kterou pan Sychra k práci přistupoval. | ||
Aktivita při dokončování | Práce byla dokončena včas, první verze nebyly zcela zdařilé, ale měl jsem možnost komentovat a student vzal v úvahu mé připomínky. Na poslední chvíli se dokončovaly pouze testy se skupinou posluchačů, což je vzhledem k nutnosti „nahánění“ hodnotitelů pochopitelné a obvyklé. | ||
Publikační činnost, ocenění | Student je autorem článku na Excel s velmi pěknou prezentací včetně demonstrace natrénovaných hudebních efektů. Doporučuji pokračování v práci a otevření hudební ML komunitě (open source nebo komerčně). |
Student přistoupil k řešení problému inovátorsky a prokázal schopnost řešení odhadu audio efektů z nahrávek s pomocí strojového učení, které pro něj bylo nové. Aktivně navrhl představení práce, které jsem rád využil. Oceňuji i studentův kritický pohled na aplikaci a nápady na zlepšení. Slabinou práce je technická zpráva, která trpí (zejména v teoretické části) faktickými a formálními problémy.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Zadání je obtížnější v tom, že kombinuje návrh a implementaci uživatelské aplikace se strojovým učením, návrhem modelu založeným na neuronových sítích a tvorbou vhodné datové sady. Úloha odhadu prezence a parametrů efektů je sama o sobě komplikovaná. Samotný originální kytarový zvuk, na který jsou aplikovány efekty, je velice variabilní (typ/materiál kytary, struny, snímače, schopnosti hráče, ...), a proto značně ovlivňuje finální audio výstup. Výsledky aplikace stejného efektového řetězce tak můžou být značné odlišné a variabilita zdroje signálu představuje neznámou v procesu odhadu efektů. Další komplikací je to, že stejný efekt může mít různé implementace, které můžou mít obecně odlišné charakteristiky. Současně aplikace efektů v odlišném pořadí (byť se stejnými parametry) má za výsledek obecně odlišný výstup. | ||
Rozsah splnění požadavků zadání | Bod 2 zadání požaduje průzkum technik strojového učení aplikovaných v oblasti audio efektů. Ačkoli úvodní kapitola bakalářské práce v jednom souvětí zmiňuje příklady článků (bez citací), teoretická část už je však více nerozepisuje. | ||
Rozsah technické zprávy | Technická zpráva je kratší, než je obvyklé, nicméně přesahuje minimální požadovaný počet normostran. | ||
Prezentační úroveň technické zprávy | 75 | Strukturu textu neshledávám zcela dobře zvolenou. Text práce je koncipován tak, že po teoretických východiscích a popisu dat následuje část týkající se neuronové sítě pro klasifikaci a regresi parametrů efektů. V rámci popisu tohoto modelu strojového učení je představen vývoj, návrh finální architektury i objektivní vyhodnocení přesnosti. Až poté následuje návrh celkové aplikace a její implementace. Domnívám se, že struktura práce, která by uvedla návrh celkové aplikace včetně všech modulů (tj. i návrhu neuronové sítě) a teprve poté představila implementační detaily a vyhodnocení jak neuronové sítě, tak celkové aplikace, by čtenáře vedla lépe. V aktuální podobě zahrnuje kapitola Data jak popis dat, tak i implementační detaily týkající se jejich čtení. Samotná implementace by zasloužila více prostoru a není dobře oddělená od návrhu. | |
Formální úprava technické zprávy | 80 | Některé názvy kapitol a sekcí jsou psané správně s velkými prvními písmeny slov. Další názvy však používají jen malá písmena nebo kombinaci obou přístupů. Častokrát se v textu vyskytují pojmy s velkými úvodními písmeny, kde pro není důvod (např. Data augmentation, Audio Effects). V rámci referencí občas chybí informace, na co směřují (např. „in 6.1“ místo „in Figure 6.1“), u odkazů na rovnice chybí závorky. Tabulky jsou následovány jejím popiskem a ne naopak. Obecně by si tabulky zasloužily více deskriptivní popisky, jelikož v některých případech není zřejmé, co znázorňují (Tabulka 4.1, 5.2). Podobně Obrázek 4.1 není srozumitelný bez přečtení textu (alespoň osy by měly být popsány vždy). Kvalitu práce by jistě zvýšilo i použití vektorových obrázků ve všech případech. Text není konzistentní v matematické notaci (např. normální a tučný font). Kvituji odvahu psát bakalářskou práci v angličtině. Z textu je však citelná nejistota vyjadřování, nesprávně volená slova, občasné gramatické chyby (jako problémy s třetí osobou, tvarem sloves v minulém čase, čárkami...) a překlepy. S volbou slov souvisí i používání ustálených pojmů v jiných kontextech (např. „frame“ v práci neodpovídá rámci, nýbrž delšímu segmentu nahrávky). Přesto se však domnívám, že je zpráva srozumitelná. | |
Práce s literaturou | 75 | Seznam použitých zdrojů je vzhledem k povaze práce relevantní. Chybí v něm však články, řešící příbuzné téma. Naopak chválím průzkum přístupů k separaci hudebních zdrojů a dohledání silného modelu Hybrid Demucs. Způsob citování je nedostatečný. V rámci teoretické části se objevují citace jen sporadicky a není zřejmé odkud byly jednotlivé informace čerpány. Bohužel se pak v textu objevují faktické chyby a nepřesnosti (např. popis trénování neuronové sítě, úvod FFT je následován rovnicí pro spojitou Fourierovu transformaci, ...). Způsob citace rovněž v některých případech ztěžuje odlišení vlastních přínosů (např. není zřejmý původ separátoru htdemucs_6s a sítě VGGish). | |
Realizační výstup | 85 | Výsledkem práce je jednoduchá funkční konzolová aplikace vytvořená v programovacím jazyce Python. K práci byla odevzdána dostatečná dokumentace s popisem instalace Python prostředí a spuštění aplikace. Oceňuji přiložené příklady vstupů a výstupů systému. Převzatý kód (datasplit.py) obsahuje odkaz na originální implementaci. Schopnost navrženého modelu detekovat efekty a odhadovat jejich parametry, byla ověřena na studentem definované datové sadě. Celková aplikace pak byla podrobena subjektivním poslechovým testům s osmi uživateli. Za diskutabilní považuji testy rekonstrukce zvuku, kdy byly na referenční kytarový zvuk aplikovány efekty mimo ty, kterými systém disponuje. Jak objektivní, tak subjektivní evaluace poukázaly na nedostatky při aproximaci kýženého kytarového zvuku. Vzhledem k dříve diskutované obtížnosti úkolu tuto skutečnost nepovažuji za stěžejní pro hodnocení. | |
Využitelnost výsledků | Jak bylo zmíněno, bakalářská práce propojuje několik konceptů od návrhu jednoduché konzolové aplikace po tvorbu vhodné datové sady. Práce tak přináší konkrétní inovativní přístup k řešenému problému, který si student sám definoval. Výsledky prozatím poukazují na prostor ke zlepšení. Vylepšená verze systému by mohla být zajímavá pro hudební nadšence. Na to poukazuje například i komerční řešení podobného problému (tj. replikace konkrétního kytarového zvuku) od společnosti Kemper. |
eVSKP id 155963