BILKOVIČ, O. Modelování dozvukových efektů s využitím hlubokého učení [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2023.

Posudky

Posudek vedoucího

Miklánek, Štěpán

Práce Ondreje Bilkoviče je na solidní úrovni s přihlédnutím na fakt, že student neměl žádné předchozí zkušenosti s neuronovými sítěmi. Hlavním úkolem bylo vytvořit univerzální systém, který bude schopen simulovat libovolný efekt umělého dozvuku s využitím principu učení s učitelem. Toto zadání bylo v zásadě splněno. Student vycházel z existující struktury neuronové sítě, kterou dokázal v několika variantách upravit tak, aby bylo dosaženo znatelně lepší kvality simulace, což je patrné hlavně z výsledků poslechového testu. Hlavním nedostatkem práce je vypracování objektivního porovnání daných modelů neuronových sítí. Popisky některých grafů jsou téměř nečitelné a např. grafy impulzních odezev nejsou příliš informativní pro porovnání jednotlivých modelů. Navrhoval jsem spočítat ještě tzv. „echo density“ (hustotu odrazů vypočítanou z impulzní odezvy), ale studentovi již na toto porovnání nezbyl čas. Student funkčnost navržených struktur neuronových sítí ověřoval hlavně modelováním časově-variantního efektu, avšak použité neuronové sítě časově-variantní nejsou. Toto byl jeden z důvodů, proč nebylo dosaženo zcela optimální kvality simulace. Je škoda, že se student při vypracovávání omezil z většiny pouze na simulaci jednoho efektu. Studentovi se podařilo namodelovat ovládací prvek délky dozvuku, ale ostatním uživatelským parametrům není v práci věnována pozornost. Struktura a text práce je na dobré úrovni. Uděluji hodnocení 82 bodů/B.

Navrhovaná známka
B
Body
82

Posudek oponenta

Schimmel, Jiří

Cílem diplomové práce bylo vytvoření modelů dozvukových efektů pomocí neuronových sítí. Diplomant nastudoval různé struktury neuronových sítí, které se v poslední době používají k modelování zvukových efektů obecně, použil je k modelování softwarového dozvukového efektu a výsledky porovnal pomocí objektivních a subjektivních testů. Pro modelování zvolil tzv. black-box přístup, tj. modelování na základě znalosti pouze vstupního a výstupního signálů. Na práci oceňuji zejména využití objektivních vlastností simulovaného akustického prostoru pro objektivní testy a také provedení subjektivního testu metodou MUSHRA. Ze zadání práce vyplývá, že hlavním cílem práce bylo porovnat jednotlivé struktury neuronových sítí, což bylo splněno. K zamyšlení ovšem zůstává, zda by nebylo možné lepších výsledků dosáhnout lepší volbou ztrátové funkce, např. pozic lokálních maxim echogramu, využití EDR místo MR-STFT apod. V teoretické části práce jsou dobře a poměrně detailně popsány struktury neuronových sítí, jejich optimalizace a ztrátové funkce, oproti tomu popis algoritmů dozvukových efektů je stručný. Pro lepší volbu ztrátové funkce i pro simulaci změny ovládacích prvků by bylo vhodnější použít pro vytvoření datasetu dozvukový efekt, jehož struktura a algoritmus je detailněji znám, případně vytvořit vlastní jednodušší dozvukový efekt, např. pomocí Audio toolboxu Matlabu. Pokud je ale cílem dosáhnout co nejlepších výsledků tzv. black-box přístupem, výsledná neuronová síť by pravděpodobně selhávala u jiných typů algoritmů dozvukových efektů. Práce je každopádně hodnotná pro další výzkum v této oblasti, pokud je známa nejefektivnější architektura neuronové sítě, je možné se v další práci zaměřit např. na hledání lepších ztrátových funkcí s ohledem na psychoakustiku prostorového vnímání. Text práce je psán přehledně, diplomant ovšem často popisuje problémy, které musel řešit, nebo jevy, na které narazil, bez adekvátního grafického podkladu. Jako příklad lze vzít kapitolu 3.4.2, kde je uvedeno, že se objevil nedostatek ve formě nízké hustoty dozvuku a samostatných odrazů v difúzní části impulsové odezvy. Toto tvrzení by mělo být doplněno ukázkou časového průběhu, aby si čtenář udělal lepší obrázek, nebo stanovením kvantifikovatelné hranice mezi nízkou a dostatečnou hustotou dozvuku. Podobných míst je v textu více. Z formálního hlediska lez práci vytknout některé odkazy, místy formátování proměnných a zejména obrázky 4.7 a 4.8, které měly být ve větším měřítku v příloze práce.

Navrhovaná známka
B
Body
87

Otázky

eVSKP id 151159