GUĽAS, M. Metody rozkladu hudebních signálů na harmonickou a transientní složku [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2024.
Práce se zabývá separací harmonické a transientní složky audio signálu metodou využívající fázově korigované časově-frekvenční reprezentace signálu a konvexní optimalizace. Algoritmus je na základě literatury implementován a jsou navrženy a realizovány dvě modifikace: (1) alternativní strategie výpočtu fázové korekce, (2) použití jiné maticové normy v optimalizační formulaci úlohy. Tím považuji zadání práce v minimální míře za splněné, s výjimkou chybějícího vyhodnocení objektivními metrikami typu PEMO-Q nebo PEAQ. Práce je po všech stránkách hraniční úrovně. Vyskytuje se množství typografických nedostatků, grafická úprava je podprůměrná (viz například rastrová schémata a grafy, sazba operátorů a konstant a další). Značné nedostatky jsou v teoretickém popisu metody v části 3.6, kde dochází k zaměňování zásadních pojmů funkce a jejího proximálního operátoru, vzorce obsahují překlepy a nekonzistentní značení (viz např. (3.15) a (3.16)). Předpis toho, jak se počítá proximální operátor (nepřesně definované) nukleární normy se objevuje až ve výpisu 6.1. V části 4.2, kde je popsána aplikace mediánové metody, se vyskytuje nepopsaný parametr k, který ani není součástí odevzdané implementace (která navíc byla odevzdána ve verzi z 26. 5. 2024, tudíž není možné ověřit správnost všech prezentovaných výsledků). Vyhodnocení výsledků je velmi stručné. Použití nukleární normy je testováno na jediném signálu. Diskuze dosažených výsledků spíše chybí. Ocenit mohu studentovu průběžnou práci na implementaci v průběhu semestru. Naopak úsilí vynaložené při doplňování práce zřejmě nebylo dostatečné vzhledem ke komplexnosti tématu.
Z mého pohledu má práce Mateje Guľase zásadní slabiny v mnoha ohledech, které níže vypisuji: Zadání: Zadání není úplně splněno. Student sice modifikoval objektivní funkci, ale tato změna není vůbec motivovaná a výsledky jsou nevěrohodné. Testování proběhlo pouze pomocí MSE/SDR. Testovací zvuková databáze pravděpodobně obsahuje jeden signál. Struktura: Členění na hlavní kapitoly je vhodné, ale další členění například kapitoly 3 již nerespetuje tématičnost (sekce 3.3 a následující patří k sobě). Obsah: Práce kromě úvodních částí popisuje problematiku spojenou s hlavním řešeným úkolem a zbytečně neodbíhá k nepodstatným tématům. Části textu však jsou velice málo propojeny odkazy nebo komentářem, který by naznačoval, jak věci souvisejí; text působí jako proud různorodých informací indikující, že autor problematice příliš neporozuměl. Jazyk: Práce je čitelná a lze jí porozumět, kromě obtížnějších pasáží, kdy je zřejmé, že na autora je problematika příliš složitá. Práce obsahuje množství překlepů (ampltúdového, sínosidu, interačný, predokladané). Občas se vyskytne vágní definice jako např. „počiatočná fáza, ktorá je rozdielom fáze medzi začiatkom funkcie cos(t) a začiatkom súradníc“ nebo nepřesné vyjadřování, jako např. rozšíření signálu o nulový úsek autor nazývá přičtením nulového signálu. Typografie a grafická úprava: Typografická stránka práce je slabá, jak v běžném textu, tak v matematických vztazích a symbolech. Pouze obrázky 4.1 a 5.1 jsou vlastní, ostatní zkopírované z jiných zdrojů; všechny obrázky jsou bitmapové. Obrázky, které by demonstrovaly autorův postup či pomáhaly čtenáři k pochopení, chybí (např. v práci není jediný spektrogram harmonické/transientní komponenty). Tabulka 5.1 je špatně čitelná, lépe by bylo řádovou čárku posunout kvůli orientaci a vyhodnocení. Práce s literaturou: Autor uvádí 9 zdrojů, což je minimum pro zpracování tématu. Značení: Některá značení nejsou vůbec definována (l21 norma), ale zejména si autor opakovaně plete funkci s jejím proximálním operátorem. Daší poznámky: * Autor nepopisuje jakým způsobem vybral „ground truth“ signály. Signál elektrické kytary může obsahovat i perkusivní složku a mimochodem zvukové výstupy tomu přesně odpovídají. * Testování a vyhodnocení zřejmě proběhlo na jediném signálu; popis na čem se testovalo je dosti zamlžený. Autor většinu hyperparametrů přebírá z literatury (testuje ale na svém signálu). Popsané dva fakty narušují věrohodnost výsledků. * Na tabulky 6.1 a 6.2 není v textu odkaz. V případě 6.2 musí čtenář hádat, co za čísla se ukazuje. Závěrem: Nezpochybňuji, že téma je obtížné a pan Guľas alespoň částečně zvládl zadaný úkol. Nicméně podle mého názoru je z práce zřejmé, že student dostatečně nerozumí problematice a práci bohužel nevěnoval dostatek času. Některé postupy jsou neodůvodněné, nemotivované. Výsledky nejsou příliš věrohodné a chybí k nim diskuze.
eVSKP id 161925