JOCHMAN, S. Kódování řeči na velmi nízkých bitových rychlostech založené na neuronových sítích [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Práce byla dokončena, ale nedosahuje průměrné kvality ani technicky (oproti článku se podařilo implementovat pouze velmi triviální změny) ani textově, což mě vede k mírně podprůměrnému hodnocení. Z organizačního hlediska (konsultace, organizace) se však s panem Jochmanem dobře pracovalo.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Zadání bylo poměrně náročné, bylo založené na článku z poslední doby a vyžadovalo netriviální dostudování signálů, řeči a strojového učení. Na druhé straně bylo usnadněno dostupností kódů, jeho využití bylo však problematické (verze knihoven, atd). Student si dal značnou práci s daty a sebral pro testování vlastní set slovenských dat. | ||
Práce s literaturou | Student pracoval se zdroji aktivně a samostatně, do materiálů ale někdy chyběl hlubší vhled a porozumění. | ||
Aktivita během řešení, konzultace, komunikace | Konsultace a komunikace byly pravidelné, z počátku školního roku bylo ale tempo relativně pomalé a stupňovalo se ke konci. Vzhledem k onemocnění a k implementačním problémům jsem doporučil posunutí termínu odevzdání práce, což napomohlo jejímu dokončení. Oceňuji rozhodnutí psát práci anglicky, i když to bylo pro studenta i vedoucího náročnější. | ||
Aktivita při dokončování | Drafty některých částí práce byly k disposici v předstihu, jejich kvalita byla ale žalostná, bylo třeba mnoha korekcí. Poslední části textu vznikaly relativně pozdě i přes posunutý termín odevzdání. | ||
Publikační činnost, ocenění | Nejsou mi známy. |
Předložená práce je na průměrné úrovni s celou řadou formálních i faktických chyb. Prezentační úroveň by mohla být zlepšena např. detailnějším popisem ve schematických diagramech. Student sice dosáhl reprodukce již publikovaných výsledků kodeku LPCNet, ale s neodpovídající kvalitou (viz demo na https://jmvalin.ca/demo/lpcnet_codec/) . Vlastní "inovativní" práce je minimální s výjimkou vyhodnocení efektu post-filtrace (LP, HP, formant PF).
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Zadání je podle mého názoru průměrně náročné. Vyžaduje studium a analýzu problematicky LPC kódování řečových signálů s využitím neuronových síti. Student by na základě toho měl provést implementaci referenčního kodeku (LPCNet) a analyzovat změny parametrů kodeku a provést jejich vyhodnocení (objektivně/subjektivně). | ||
Rozsah splnění požadavků zadání | Na základě odevzdané práce lze konstatovat, že bod č. 4 zadání splněn nebyl. Student argumentuje, že zadání bylo pozměněno na základě konzultace s vedoucím práce a že splnění tohoto bodu by vyžadovalo vysoké nároky na výpočetní výkon, které student neměl k dispozici. Podle mého názoru nebylo v bodě č. 2 zadání dosaženo reprodukce publikovaných výsledků u referenčního kodeku (LPCNet). Podle poslechu několika signálů a porovnáním s demo signály na https://jmvalin.ca/demo/lpcnet_codec/ je reprodukovaná kvalita velmi nízká a neodpovídá kvalitě, kterou publikují sami autoři. V bodě č.3 zadání měl student navrhnout vlastní modifikace architektury referenčního kodeku a vyhodnotit efekty změn jednotlivých parametrů. To se podařilo pouze u post-filtračních technik. | ||
Rozsah technické zprávy | Na základě subjektivního posouzení práce splňuje minimální požadavky. | ||
Prezentační úroveň technické zprávy | 68 | Struktura technické zprávy je v pořádku a kapitoly na sebe logicky navazují. Obsah některých kapitol je však duplikován (např. pojednání o linear prediciton v kapitole 4.2.3). Implementační část práce bych očekával spíše na konci, než uprostřed. Pochopitelnost celé práce pro čtenáře je nízká. Kapitoly, které student převzal z cizích zdrojů lze snadno rozpoznat, ale jejich text většinou není zasazen do nějakého srozumitelného kontextu. Celé práci pak chybí jeden ucelený logický rámec. Použité symboly v rovnicích nejsou často vysvětleny a nebo neodpovídají tomu, co je napsáno v textu. Grafy mají malou vypovídací hodnotu, často v nich chybí návaznost na pojmy uvedené v textu a vstupní/výstupní signály. Celá práce působí spíše jako slepenec odstavců z různých zdrojů. | |
Formální úprava technické zprávy | 63 | Celá práce je napsána v anglickém jazyce. Lze velmi snadno rozpoznat text využitý (a pravděpodobně upravený) z cizích zdrojů a autorův vlastní text. Angličtina je na průměrné až nízké úrovni. Použité fráze jsou často nesprávné nebo zavádějící, viz. např. "Frequency-domain of this convolution ...". Grafická úprava je celkem v pořádku, byť např. schematické diagramy většinou příliš nepomáhají k pochopení souvisejícího textu. | |
Práce s literaturou | 82 | Práce s literaturou je v pořádku. Jsou použity relevantní zdroje a na externí práce je v textu až na pár výjimek odkazováno. | |
Realizační výstup | 75 | Programové řešení problému je průměrně zdařilé. Student navrhl několik nezávislých skriptů a webových aplikací pro nahrávání audio signálů, trénování a testování kodeku LPCNet a hodnocení kvality pomocí AB testu. Funkčnost aplikace na testování kodeku LPCNet však bylo možno ověřit pouze částečně a to např. vzhledem k problému aplikace, která není schopna číst .wav soubory (Only 'RIFF' and 'RIFX' supported). Aplikace umožňuje porovnat několik upravených verzí kodeku LPCNet (trénování s omezeným počtem epoch, LP filtrace, HP filtrace, aplikace formant post-filteru, ...). Největším problémem je však chybějící srovnání s ostatními state-of-the-art NN kodeky (např. WaveNET, WaveRNN, SoundStream, ENCodec, ...) a nebo klasickými waveform kodeky (G.718, EVS, AMR-WB, G.711, ...). | |
Využitelnost výsledků | Jedná se spíše o práci kompilačního charakteru, reprodukující již dosažené výsledky a to ještě diskutabilní. Nové poznatky bohužel nepřínáší. Student měl ambici provést např. "ablation study", ve které by např. měnil bitový tok u kódování různých parametrů LPC kodeku, např. pitch, gain, spektrální obálka, atp. a vyhodnocením těchto změn v kontextu sítě WaveRNN. To se bohužel nepodařilo. |
eVSKP id 146269