JOCHMAN, S. Kódování řeči na velmi nízkých bitových rychlostech založené na neuronových sítích [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Černocký, Jan

Práce byla dokončena, ale nedosahuje průměrné kvality ani technicky (oproti článku se podařilo implementovat pouze velmi triviální změny) ani textově, což mě vede k mírně podprůměrnému hodnocení. Z organizačního hlediska (konsultace, organizace) se však s panem Jochmanem dobře pracovalo. 

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Zadání bylo poměrně náročné, bylo založené na článku z poslední doby a vyžadovalo netriviální dostudování signálů, řeči a strojového učení. Na druhé straně bylo usnadněno dostupností kódů, jeho využití bylo však problematické (verze knihoven, atd). Student si dal značnou práci s daty a sebral pro testování vlastní set slovenských dat.
Práce s literaturou Student pracoval se zdroji aktivně a samostatně, do materiálů ale někdy chyběl hlubší vhled a porozumění.
Aktivita během řešení, konzultace, komunikace Konsultace a komunikace byly pravidelné, z počátku školního roku bylo ale tempo relativně pomalé a stupňovalo se ke konci. Vzhledem k onemocnění a k implementačním problémům jsem doporučil posunutí termínu odevzdání práce, což napomohlo jejímu dokončení. Oceňuji rozhodnutí psát práci anglicky, i když to bylo pro studenta i vedoucího náročnější. 
Aktivita při dokončování Drafty některých částí práce byly k disposici v předstihu, jejich kvalita byla ale žalostná, bylo třeba mnoha korekcí. Poslední části textu vznikaly relativně pozdě i přes posunutý termín odevzdání. 
Publikační činnost, ocenění Nejsou mi známy. 
Navrhovaná známka
D
Body
68

Posudek oponenta

Malenovský, Vladimír

Předložená práce je na průměrné úrovni s celou řadou formálních i faktických chyb. Prezentační úroveň by mohla být zlepšena např. detailnějším popisem ve schematických diagramech. Student sice dosáhl reprodukce již publikovaných výsledků kodeku LPCNet, ale s neodpovídající kvalitou (viz demo na https://jmvalin.ca/demo/lpcnet_codec/) . Vlastní "inovativní" práce je minimální s výjimkou vyhodnocení efektu post-filtrace (LP, HP, formant PF).

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadání je podle mého názoru průměrně náročné. Vyžaduje studium a analýzu problematicky LPC kódování řečových signálů s využitím neuronových síti. Student by na základě toho měl provést implementaci referenčního kodeku (LPCNet) a analyzovat změny parametrů kodeku a provést jejich vyhodnocení (objektivně/subjektivně).
Rozsah splnění požadavků zadání Na základě odevzdané práce lze konstatovat, že bod č. 4 zadání splněn nebyl. Student argumentuje, že zadání bylo pozměněno na základě konzultace s vedoucím práce a že splnění tohoto bodu by vyžadovalo vysoké nároky na výpočetní výkon, které student neměl k dispozici. Podle mého názoru nebylo v bodě č. 2 zadání dosaženo reprodukce publikovaných výsledků u referenčního kodeku (LPCNet). Podle poslechu několika signálů a porovnáním s demo signály na https://jmvalin.ca/demo/lpcnet_codec/ je reprodukovaná kvalita velmi nízká a neodpovídá kvalitě, kterou publikují sami autoři. V bodě č.3 zadání měl student navrhnout vlastní modifikace architektury referenčního kodeku a vyhodnotit efekty změn jednotlivých parametrů. To se podařilo pouze u post-filtračních technik.
Rozsah technické zprávy Na základě subjektivního posouzení práce splňuje minimální požadavky.
Prezentační úroveň technické zprávy 68 Struktura technické zprávy je v pořádku a kapitoly na sebe logicky navazují. Obsah některých kapitol je však duplikován (např. pojednání o linear prediciton v kapitole 4.2.3). Implementační část práce bych očekával spíše na konci, než uprostřed.  Pochopitelnost celé práce pro čtenáře je nízká. Kapitoly, které student převzal z cizích zdrojů lze snadno rozpoznat, ale jejich text většinou není zasazen do nějakého srozumitelného kontextu. Celé práci pak chybí jeden ucelený logický rámec. Použité symboly v rovnicích nejsou často vysvětleny a nebo neodpovídají tomu, co je napsáno v textu. Grafy mají malou vypovídací hodnotu, často v nich chybí návaznost na pojmy uvedené v textu a vstupní/výstupní signály. Celá práce působí spíše jako slepenec odstavců z různých zdrojů.
Formální úprava technické zprávy 63 Celá práce je napsána v anglickém jazyce. Lze velmi snadno rozpoznat text využitý (a pravděpodobně upravený) z cizích zdrojů a autorův vlastní text. Angličtina je na průměrné až nízké úrovni. Použité fráze jsou často nesprávné nebo zavádějící, viz. např. "Frequency-domain of this convolution ...". Grafická úprava je celkem v pořádku, byť např. schematické diagramy většinou příliš nepomáhají k pochopení souvisejícího textu. 
Práce s literaturou 82 Práce s literaturou je v pořádku. Jsou použity relevantní zdroje a na externí práce je v textu až na pár výjimek odkazováno. 
Realizační výstup 75 Programové řešení problému je průměrně zdařilé. Student navrhl několik nezávislých skriptů a webových aplikací pro nahrávání audio signálů, trénování a testování kodeku LPCNet a hodnocení kvality pomocí AB testu. Funkčnost aplikace na testování kodeku LPCNet však bylo možno ověřit pouze částečně a to např. vzhledem k problému aplikace, která není schopna číst .wav soubory (Only 'RIFF' and 'RIFX' supported). Aplikace umožňuje porovnat několik upravených verzí kodeku LPCNet (trénování s omezeným počtem epoch, LP filtrace, HP filtrace, aplikace formant post-filteru, ...). Největším problémem je však chybějící srovnání s ostatními state-of-the-art NN kodeky (např. WaveNET, WaveRNN, SoundStream, ENCodec, ...) a nebo klasickými waveform kodeky (G.718, EVS, AMR-WB, G.711, ...).
Využitelnost výsledků Jedná se spíše o práci kompilačního charakteru, reprodukující již dosažené výsledky a to ještě diskutabilní. Nové poznatky bohužel nepřínáší. Student měl ambici provést např. "ablation study", ve které by např. měnil bitový tok u kódování různých parametrů LPC kodeku, např. pitch, gain, spektrální obálka, atp. a vyhodnocením těchto změn v kontextu sítě WaveRNN. To se bohužel nepodařilo.
Navrhovaná známka
D
Body
68

Otázky

eVSKP id 146269