TALÁR, O. Redukce šumu audionahrávek pomocí hlubokých neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2017.

Posudky

Posudek vedoucího

Harár, Pavol

Stručný popis pro čtení v komisi: Student byl ze začátku aktivní. K semestrální práci připravil téměř vše, co od něj bylo požadováno. No postupně se v průběhu roku začali objevovat hluchá místa o trvání i 2 měsíců, které student obhajoval problémy s technikou. V řádném termínu tedy práci vypracovat nestihl. V opravném termínu se taky studentovi problém vyřešit nepovedlo. Akceptovatelným výsledkem práce by byl i jasně popsán neúspěch a početné experimenty, kterými by se zužovalo pole možností vedoucí k zdárnému výsledku. Práce s čistým rozsahem 19 stran (33 včetně titulní strany a seznamu příloh) však tímto v dostatečné míře nedisponuje. Práce obsahuje početné chyby ve formulacích, překlepy, zbytečné anglicismy, student se nevyjadřuje exaktně a čtenář je tak lehko uveden do omylu. Rešerše aktuálního stavu vědy a techniky je neadekvátní. Vlastní práce má rozsah 4,5 strany. Student řádně necituje veškeré zdroje. Vedoucí dostal práci k nahlédnutí 2 dny před odevzdáním, co znemožnilo včasné připomínkování, kterým se mohlo předejít některým méně závažným chybám. I přesto, že zadaný problém považuji za náročný, odevzdaná práce dle mého názoru nedosahuje na úroveň diplomanta a proto hodnotím práci výslednou známkou 30/F. ****************************** Podrobný popis nedostatků: - Backpropagation a optimalizační metody se používají při trénování všech zmíněných neuronových sítí, ne jen rekurentních. - Rekurentní sítě nemusí nutně obsahovat smyčky, které by distribuovali vstupní informaci neuronu do všech ostatních neuronů. - V textu není nikde popsaná chybová funkce J(w) i přesto, že je pomocí ní snaha o vysvětlení algormitu Gradient descent. - Student se nevyjadřuje exaktně a čtenář tak může být lehko uveden do omylu: Příklad 1: "..., nebo jiné aktivační funkce, které budou obecnější." - Neexistují žádné aktivační funkce, u kterých by se dalo mluvit o "obecnosti". Příklad 2: "Další možností je sledování trénování a validace. Můžeme si pak povšimnout, po kolika epochách dochází k overfittingu..." - Co sledujeme? Monitor počítače? A jak přijdeme na to, že dochází k přetrénování? Proč "overfitting" a ne "přetrénování"? Příklad 3: "Nás bude zajímat pouze čistá výkonnost neuronové sítě." - Co je to výkonnost neuronové sítě? Jak se měří? Může být čistá? Příklad 4: "...adaptive learning rates a momentum term - obojí slouží k vyvažování možných chyb a stabilním učení..." - Jak změna rychlosti učení vyvažuje možné chyby? Jaké možné chyby? Jak vyvažuje? Příklad 5: "Třetí a poslední možnost se na problém dívá z jiného pohledu." - Už neexistuje žádná jiná možnost jak problém odšumování audia adresovat? Existují pouze tři? Příklad 6: "...vzorkována na 16000kHz s 16 bity na vzorek." - za prvé jsem ještě neviděl audio nahrávku vzorkovanou se vzorkovací frekvencí 16 MHz, za druhé, nebylo by vhodnější vyjádřit se například takhle: "vzorkována s vzorkovací frekvencí 16kHz s bitovou hloubkou 16 bitů?" Příklad 7: "Specificky LSTM problémem může být správné vymodelování tenzoru vstupních dat." - Znamená to, že specifický problém LSTM je, že dokáže správně vymodelovat tenzor vstupních dat? I kdyby to bylo myslené takhle, tak to smysl nedává. Příklad 8: "Taktéž se zdá, že LSTM síť pravděpodobně příliš nehledí na počet znaků v jednom timestepu, což jasně udává, že se budeme snažit najít optimální poměr mezi sekvencí a timestepy. To vše pochopitelně za předpokladu, že tyto parametry budou mít vliv, poněvadž není jasná odpověď, která by hovořila pro nebo proti." - Tato věta spíš připomíná politika v nesnázích, než popis algoritmu. Nepřesná a zavádějící tvrzení a žádná fakta. - Slabá rešerše stavu aktuální vědy a techniky. Z textu se čtenář nedoví žádnou konečnou a ucelenou informaci o tom jak řešili daný problém jiný výzkumníci. Najde jenom krátký popis vybraných článků v kterých také chybí informace o datech, které autoři použili pro trénování. Jestli tohle byli veškeré experimenty, které byli publikovány se čtenář nedoví. Dosažené výsledky diplomant neuvádí z důvodu, že nebyli měřeny stejnou metrikou - co je pochopitelné pro nevypsaní do tabulky, ale ne pro úplné opomenutí této asi nejvíce důležité informace. Jak by v závěru student porovnával své dosažené výsledky zůstává záhadou. - Tabulka, která porovnává vytvořený dataset s TIMIT a AURORA databázemi postrádá informaci o celkové délce nahrávek. - Velký počet anglicizmů, které se dají lehce počeštit, jako např. "počet timestepů" atd. - Překlepy i ve výpočtech (16 x 111 = 1771) - Poslední věta sekce 3.4 nemůže být dále od pravdy. Neuronové sítě se právě používají hlavně pro řešení komplexních problémů. - Chybí citace ReLu, SoX, foobar2000, Keras, TensorFlow, Theano, ADAM, SGD...

Navrhovaná známka
F
Body
30

Posudek oponenta

Galáž, Zoltán

Cílem práce studenta bylo navrhnout a implementovat model hluboké neuronové sítě ve frameworku KERAS, který bude schopen úspěšně odstraňovat šum ze vstupních zašuměných hlasových audio nahrávek, výsledky vhodně statisticky vyhodnotit a komentovat. Návrh dané neuronové sítě postrádá podrobnou rešerši, která by podložila validitu zvoleného postupu, jeho inovativnost a technickou propracovanost. Dále, samotná realizace je popsána na pouze 4 stranách, přičemž absolutně postrádá smysluplné statistické vyhodnocení a následnou diskuzi výsledků. Po formální stránce je práce na podprůměrné úrovni. Vyskytují se zde početné nepřesnosti, nejasná formulace a zavádějící tvrzení, které nejsou nijak podložené literaturou. Ve všeobecnosti, cíle práce nebili splněny. Odevzdaná práce po obsahové, odborné, formální a technické stránce ani zdaleka nedosahuje úrovně kvalitní diplomové práce. Navrhuji hodnocení 30b, nevyhovující.

Navrhovaná známka
F
Body
30

Otázky

eVSKP id 104833