POSPÍŠIL, T. Syntéza ruchů pomocí neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.

Posudky

Posudek vedoucího

Miklánek, Štěpán

Diplomová práce Tomáše Pospíšila splňuje požadovaný rozsah, ale vykazuje několik podstatných nedostatků. V úvodu práce věnoval student značné množství času seznámení se s problematikou neuronových sítí a snaze o zprovoznění některých doporučených struktur využívajících principy diferencovatelného číslicového zpracování signálu (DDSP). Ačkoli jsou dostupné implementace těchto modelů volně přístupné a kompletní, student při jejich adaptaci strávil hodně času. Zadání bylo původně formulováno obecně, aby student mohl prostudovat širší spektrum literatury a případně navrhnout vlastní aplikační využití v oblasti zvukové syntézy. Bohužel však student věnoval studiu odborné literatury v oblasti DDSP pouze omezenou pozornost. Nakonec bylo po konzultaci dohodnuto zaměření na syntézu zvuků automobilu s využitím simulačního prostředí BeamNG.drive, které umožňuje generování jak zvukových dat, tak odpovídajících ovládacích parametrů. Student úspěšně vytvořil datovou sadu a implementoval základní syntézu zvuků. Pokročilejší syntéza s využitím dalších ovládacích parametrů, reflektujících dynamiku pohybu automobilu, však byla realizována jen částečně. Výsledná kvalita těchto rozšíření nebyla přesvědčivá ani při subjektivním poslechu. Výsledky a experimenty navíc nebyly vedeny dostatečně systematicky a jejich popis je místy nepřehledný a obtížně interpretovatelný. Stylizace textu místy není konzistentní a studentovi se nepodařilo zapracovat všechny opravy. Práci doporučuji k obhajobě, a to s celkovým hodnocením 78 bodů / C.

Navrhovaná známka
C
Body
78

Posudek oponenta

Ištvánek, Matěj

Předložená diplomová práce se zabývá tématem DDSP a neuronových sítí pro simulaci a syntézu zvuků. V prvé řadě se v práci používá výraz semestrální práce, což je předpokládám relikt ze zimního semestru. Textu obsahuje mnoho překlepů (napříkklad, vstupijící, všších atp.), typografických nedostatků (chybné spojovníky/pomlčky, jednopísmenné spojky na konci řádků, nevhodné odřádkování, mnoho vynechaných mezer, vynechané tečky za větami ad.). Rovnice 1.1 odkazovaná v textu na straně 13 je zobrazena až o dvě strany později, některé pojmy jsou použity v textu a vysvětleny závorkou až později, někdy nejprve česky a v závorce anglicky, někdy naopak. Obrázek 3.2 má na rozdíl od jiných anglické popisky os a malé písmo. Spektrogramy a další obrázky jsou v rastrové grafice s poměrně malým rozlišením, což trochu kazí vizuální dojem. Text je stylisticky neunifikovaný, ale na druhou stranu srozumitelný, čtivý a obsahuje základní teoretické pojmy nutné k pochopení řešení práce. V některých případech mi přijde, že student příliš generalizuje bez náznaku rozvedení, např. když píše o problému mizejícího gradientu a uvádí jako možná řešení pouze použití složejších struktur bez dalšího vysvětlení. Student v rámci teorie číslicového zpracování volně zaměňuje amplitudu a modul (např. strana 39). Nerozumím, proč se v teoretické části probírá simulace zvuku auta, když v kapitole 5 jsou data primárně z nahrávek hudebních nástrojů a ruchů. Celá kapitola 5 mi přijde jako výsledek semestrální práce, kterou student posléze výrazně modifikoval a upravil do kapitoly 6. Myslím ale, že by měl být koncept kapitol tím pádem udělán jinak, takto to působí natvrdo vložené mimo kontext zbytku práce. Největší problém mám s konceptem praktických kapitol. Autor práce předpokládá, že čtenář dobře zná použité Python moduly a autor tedy jen komentuje změny vůči oficiálnímu repozitáři. Nemyslím si, že tento styl popisu modifikace skriptů je v tomto případě vhodný, působí to pouze jako úprava práce někoho jiného. Dále zde není řečeno, zda posluchači u subjektivních testů měli nějakou odbornost, zkušenosti s audio inženýrstvím nebo byli náhodně vybráni. Autor mnohokrát zmiňuje časovou náročnost trénování modelu, ale v tabulce, ve které porovnává modely dle času trénování, jsou hodnoty od zhruba 7 hodin do 23 hodin, což by nemělo vytvářet problém pro jakékoliv testování a optimalizaci. Student dále píše, že celkově špatná subjektivní kvalita modelů je způsobena malým množstvím epoch, ale nedohledal jsem, proč student volil zrovna 10 a 20 tisíc epoch pro trénování zvolených modelů. Z textu práce, hlavně co se týče závěrečných kapitol, mi vyplývá, že student praktickou část nestíhal a natrénoval modely až velmi pozdě, takže nestihl optimalizaci, podrobné testování a evaluaci. Výsledky jsou subjektivně špatné a v práci není uvedené konkrétní možné řešení pro zlepšení výsledků nebo pokusy o optimalizaci, jinou architekturu atp. Na základě textu a délky práce je ale evidentní, že student na tom i tak strávil hodně času a nakonec splnil zadání. Práci doporučuji k obhajobě, 74 bodů C.

Navrhovaná známka
C
Body
74

Otázky

eVSKP id 167243