HARŠANÍK, D. Generování syntetických snímků duhovky [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Pán Dominik Haršaník svojou bakalárskou prácou ukázal schopnosť aplikovať generatívne modely na unikátny problém podmieneného generovania snímok dúhovky. To demonštroval aj návrhom vlastnej modifikácie siete ACGAN. Zároveň demonštroval schopnosť experimentovať s vlastnými nápadmi a rôznymi typmi genreratívnych modelov. Z pohľadu vedúceho hodnotím pozitívne vlastnú rešerš a prevedené experimenty, avšak negatívne hodnotím málo systematický prístup k vyhodnoteniu výsledkov experimentovania počas riešenia práce. Celkovo pre prácu navrhujem známku C.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Informace k zadání | Zadanie vyžaduje do hĺbky preskúmať problematiku generovania obrazu pomocou neurónových sietí. Ako výsledok práce sa zároveň očakáva implementácia a experimenty s týmito modelmi. Vzhľadom ku potrebným znalostiam, zadanie nadmieru presahuje znalosti nadobudnuté v bakalárskom štúdiu. Jedná sa, teda o náročné zadanie. Riešiteľ problematiku preskúmal do hĺbky a prezentuje výsledky na viacerých experimentov s generatívnymi modelmi pre podmienené vytváranie syntetických snímok dúhovky. Z tohoto pohľadu považujem zadanie za splnené. | ||
| Práce s literaturou | Študent pracoval s literatúrou, ktorú som mu poskytol. Taktiež si z vlastnej iniciatívy vyhľadával zdroje. Následne využíval preskúmané metódy a dátové sady v experimentoch. | ||
| Aktivita během řešení, konzultace, komunikace | Študent bol aktívny väčšinu doby riešenia projektu. Konzultácie boli pravidelnejšie s blížiacim sa termínom odovzdania práce. | ||
| Aktivita při dokončování | Práca bola vypracovaná načas a jej finálna podoba bola z veľkej časti konzultovaná. | ||
| Publikační činnost, ocenění |
Student využil hotový dataset a existující model k natrénování generátoru, který produkuje obrázky očí. Zaměřil se na různé typy snímků (např. přivřené oko, různé světelné podmínky,...). Generované obrázky nejsou zcela realistické. Práce obsahuje několik nelogických nebo matoucích kroků. Jedním z větších nedostatků je absence kvantitativního vyhodnocení a opomenutí identity osoby při generování snímků. Technická zpráva je po jazykové stránce na dobré úrovni, ale celkovou čitelnost snižuje množství seznamů a výčtů. Obsahově zpráva postrádá některé důležité informace (např. použité loss funkce, informace o FID skóre,...), naopak některé informace jsou zbytečné (str. 19, 28, atd.). Vzhledem k náročnějšímu zadání hodnotím práci známkou D.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Náročnost zadání | Zadání hodnotím vzhledem k bakalářské práci jako obtížnější. | ||
| Rozsah splnění požadavků zadání | |||
| Rozsah technické zprávy | |||
| Prezentační úroveň technické zprávy | 65 | Technická zpráva má logickou strukturu, která navazuje. Práce obsahuje 9 kapitol na 43 stranách, což je poměrně hodně – některé kapitoly by mohly být sloučeny. Téměř každá stránka obsahuje výčet nebo seznam, což sice přispívá k jasnosti, ale často narušuje plynulost čtení. V textu také chybí podrobnější popis využití snímků oční duhovky (rozdíl mezi verifikací, identifikací, autentizací nebo diagnostické účely) a jejich vztah s řešeným problémem. Popis architektur na stranách 31 a 32, který obsahuje pouze výčet počtu použitých druhů vrstev, je nicneříkající a zbytečný. Úplně chybí informace o použitých loss funkcích. V biometrických systémech je klíčová informace o identitě osoby. Student však tento aspekt při řešení ignoruje a nijak se k němu nevyjadřuje. Student vůbec nepoužíva vzorce, což by bylo v několika případech žádoucí (loss funkce, FID, KL divergence). Závěr práce je zbytečně dlouhý. Obsahuje popis možností fúze datasetů, který měl být uveden v kapitole 4, navrhuje diskutabilní "iterativní trénování" modelu a vyjadřuje se k velikosti datasetů a velkému množství tříd (510 tříd), přičemž ale v práci používá kategorizaci založenou na typu snímku. | |
| Formální úprava technické zprávy | 85 | Práce je po typografické a jazykové stránce na dobré úrovni. Obsahuje jen malé množství stylistických chyb a překlepů. Jedinou větší chybou je duplikace odstavce na straně 12 v sekci 'Mode collapse' a na straně 13 v sekci "Tréningový čas a zdroje". | |
| Práce s literaturou | 75 | Student cituje průměrné množství odborné literatury. V práci bych však očekávala rozsáhlejší analýzu aktuálních metod (bod 2 zadání) namísto podrobné analýzy pouze dvou přístupů. | |
| Realizační výstup | 60 | Student použil volně dostupné zdrojové kódy a dataset v souladu s autorskými právy. Kódy mírně upravil pro svoji potřebu a vytvořil tři variace modelů. Některé implementační detaily nejsou dostatečně popsány: generátor má na výstupu tříkanálový výstup ale všechny prezentovány obrázky jsou černobílé, architektura sítí je nicneříkající seznam vrstev, chybí popis loss funkcí, a pod. Kvantitativní evaluace metod je velmi stručná (pouhé dva grafy). Navíc chybí hlubší analýza grafu 8.4, na kterém loss funkce generátoru neustále roste. Stejně tak chybí rozbor grafu 8.5, kde FID skóre osciluje kolem hodnoty 0,5 (je to moc? Málo?), přičemž "hezké" generované obrázky na grafech 8.6 až 8.9 mají skóre kolem hodnoty 6. Kladně hodnotím ukázky dat generovaných různými variacemi modelu. | |
| Využitelnost výsledků | Jedná se o práci kompilačního charakteru, jelikož student využil stávající dataset i architekturu a implementaci sítě. V současné podobě není práce prakticky využitelná ze dvou důvodů: 1) generované snímky očí nedosahují dostatečné kvality; 2) chybí přiřazení generovaných snímků k dané identitě. |
eVSKP id 156735