NAUMENKO, M. Potlačení šumu ve videu pomocí hlubokých neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Španěl, Michal

Pro pana Naumenka byla bakalářská práce prvním seznámením s neuronovými sítěmi. Své znalosti budoval od základů a obdobně i modely, se kterými experimentoval a postupně je vylepšoval. Přestože nevyužíval nejaktuálnější postupy, prokázal, že je schopný samostatně uchopit nové téma, dostatečně se v něm zorientovat a realizovat i praktické experimenty.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Téma je předmětem mnoha vědeckých článků a pro bakaláře nemusí být jednoduché se v problematice a složitých postupech zorientovat. Student se inspiroval metodami publikovanými v roce 2019 a dokázal postupně budovat a vylepšovat vlastní model neuronové sítě, který trénoval na připraveném datasetu. S ohledem na výběr metod obtížnost zadání hodnotím jako standardní. Požadované body zadání byly splněny.
Práce s literaturou Student veškeré materiály sám vyhledal a nastudoval v míře dostatečné pro vlastní experimenty. Větší pozornost mohl věnovat i novějším postupům a složitějším modelům. Jejich pochopení je ovšem výrazně náročnější.
Aktivita během řešení, konzultace, komunikace Student práci konzultoval zřídka, ovšem vždy byl znát pokrok. Řešení bakalářské práce se zjevně průběžně věnoval.
Aktivita při dokončování Práce mohla být dokončena dříve. Především technická zpráva byla dokončována na poslední chvíli a neměl jsem dostatek prostoru se vyjádřit k její definitivní podobě.
Publikační činnost, ocenění Není známa.
Navrhovaná známka
C
Body
75

Posudek oponenta

Hradiš, Michal

Jedná se pro mě o rozporuplnou práci. Na jedné straně student poměrně dobře zpracoval náročné téma, implementoval tři rozumné sítě a napsal pochopitelný text kvalitní angličtinou. Na druhou stranu ale je text často povrchní, nepřesný a působí občas "vygenerovaně". Také experimenty jsou spíše minimalistické, kvalitativní interpretace výsledků není příliš důvěryhodná a použitá baseline je diskutabilní.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Odšumování videa je poměrně pokročilé téma, které vede na výpočetně náročné experimenty.
Rozsah splnění požadavků zadání
Rozsah technické zprávy
Prezentační úroveň technické zprávy 70 Práce má většinou vhodnou stukturu, diskutuje potřebná témata a čtenář většinou pochopí potřebné informace. Jen koncepty jako residuální sítě, U-net, SubPixelConv2D nebo ConvLSTM2D by možná  bylo vhodné představit před sítěmi, které navrhuje student a které je používají. V práci mi pak chyběla analýza šumu generovaného pomocí C2N nebo aspoň nějaké informace, které by mi daly aspoň základní představu o vlastnostech tohoto šumu. Text úplně opomíjí vysvětlit podle něj zásadní krok "identifying and removing any corrupt or invalid video sequences".  Nepříjemné bylo, že mi četné části textu připadaly jako marketingový pamflet vygenerovaný pomocí ChatGPT, ve kterém chybí technické detaily, ale obsahuje vzlétná nepodložená prohlášení. Například jsem se z textu kapitolek 3.1 a 3.2 nedozvěděl moc o struktuře sítí FastDVDNet a ViDeNN, o použitých chybových funkcích, datových sadách, nebo způsobu jejich trénování. Zato mám vágní představu, že jsou úžasné a "most advanced". Podobně vágní pasáže bez konkrétní podstaty nebo podporujících faktů se v práci objevují poměrně často. Nepochopil jsem úplně rovnici 6.2. V některých případech jsem si nebyl jistý prezentovanými informacemi. Například na obrázku 3.1 nevidím, že by FastDVDNet nějak zahrnovala "traditional motion estimation techniques, such as calculating optical flow", jak je napsané na začátku sekce 3.1.1.
Formální úprava technické zprávy 65 Práce je napsaná kvalitní angličtinou s minimem chyb. Typograficky je práce vesměs kvalitní až na chaotičtější kapitolu 5 s množstvím nadpisů a víceúrovňových odrážkových seznamů. Některé obrázky by měly být kvalitnější. Nerozumím například proč je obrázek 5.2 vektorový a 5.3 rastrový. Rastrové grafy také moc nepotěší (a s nadpisem nahoře). Zásadní problém mám se stylem a často s obsahem textu, který bych  charakterizoval jako styl marketingovaého pamfletu. Je mi jedno, jak text vzniknul, ale do odborných publikací takový text nepatří. Ilustruje to následujících pár formulací z kapitoly 3: "notable advancement", "exceptional quality", "versatile and powerful tool", "unique approach", "uses advanced methods", "highlighting the benefits", "proficient handling", "synergistic application", "exceptional efficiency", "showcases", "viewer satisfaction", "performance is commendable", "outstanding capabilities", "significant leap", "up to 80 times quicker than some competitors" ...
Práce s literaturou 70 Práce se odkazuje celkem na 29 zdrojů, které poměrně dobře pokrývají řešené téma. Zdá se mi ale, že přehled současných metod a datových sad by mohl být trochu širší. Je představena jen datová sada přímo používaná v experimentech. Vysvětlení ConvLSTM2D by mohlo být přesnější.  Uvádění zdrojů by mohlo být důslednější. Například  2.5 Challenges in Video Denoising úplně postrádá zdroje a ve zdroji [15] použitém v kapitolce 2.1 jsem nenašel graininess, color distortion ani pixel variations. U sítí navrhovaných studentem není úplně jasné, které prvky jsou invencí studetnta a z čeho přesně vycházejí. Například není jasné, jestli  následující jsou originální myšlenky studenta, nebo je převzal: 1) záměna upsampling mechanizmu z původního U-Net [21], 2) použití residuálního enkodéru v U-Net-like síti, 3) použití ConvLSTM2D, 4) výstup více snímků ze sítě (teda toto je po pravdě podle textu "unikátní", ale s tím bych mohl polemizovat).
Realizační výstup 80 Zdrojové kódy jsou dobře členěné a přehledné a zdá se, že student implementoval tři archytektury sítí. Vyhodnocení není moc přesvědčivé. Každou ze tří sítí natrénoval pouze jednou a pokaždé použil jiné loss funkce. Kvalitativnímu hodnocení studentem moc nedůvěřuji. Použitá baseline byla natrénovaná na jiný druh šumu. Nerozumím, proč student jako baseline nevyužil předtrénovaný model z C2N.  Z mého pohledu je škoda, že student nevyzkoušel nějakou ze současných sítí pro podobné úlohy, které obsahují mechanismy umožňující kompenzaci pohybu ve videu. Student se pravědpodobně dopustil dvou chyb: Zmíněné "blikání" může být způsobené tím, že funkce použitá na ukládání obrázků škáluje hodnoty vždy do rozsahu 0-255. Při načítání obrázků z adresářů testovacích sekvencí mění pořadí snímků - je vidět na přiložených ukázkových sekvencích. V odevzdaných materiálech chybí scripty na přípravu datové sady pomocí C2N a nástroje na "identifying and removing any corrupt or invalid video sequences" (teda předpokládám, že těch 90 tisíc video-sekvencí student nekontroloval ručně).
Využitelnost výsledků Student vyzkoušel zajímavé sítě na problém zpracování videa. Zdrojové kódy jsou přehledné a může je někdo využít. Výsledky experimentů ale nepřináší věrohodné informace.
Navrhovaná známka
C
Body
72

Otázky

eVSKP id 154387