STRÝČEK, Š. Vision transformery pro rozpoznávání tváří [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Student se zhostil zadaného úkoly svědomitě. Nastudoval si dostupné architektury a přístupy využitelné pro rozpoznávání tváří pomocí vision transformerů. V průběhu řešení DP provedl řadu experimentů a dosáhl výsledků srovnatelných se současným state of the art. Vzhledem k výše uvedenému a jeho účasti na konferenci Excel@FIT hodnotím práci stupněm A.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Zadání práce se zaměřuje na využití arcihtektury neuronových sítí typu vision transformer pro úlohu rozpoznávání tváří, kde dosud dominovali konvoluční neuronové sítě. Student měl za úkol vybrat vhodné modely/architektury, experimentovat s nimi a modely vyhodnotit na úloze verifikace identity osoby na základě rozpoznání tváře. Obecně se jedná o těžší zadání se značným množstvím samostudia a dlouhými experimentačními cykly. | ||
Práce s literaturou | Student si sám dohledal veškeré potřebné zdroje a další literaturu. | ||
Aktivita během řešení, konzultace, komunikace | Student byl aktivní po celou dobu řešení diplomové práce. Průběžně sdílel výsledky i mimo domluvené konzultace. Na konzultace byl vždy řádně nachystaný. | ||
Aktivita při dokončování | Práce byla dokončována s dostatečnou časovou rezervou. Text práce byl průběžně konzultován. Finální verze práce byla k dispozici ke kontrole před odevzdáním. | ||
Publikační činnost, ocenění | Student se zúčastnil studentské konference Excel@FIT. |
Dle mého názoru se jedná o práci s nedostatky především v prezentační a formální úpravě technické zprávy a některými nepříliš vhodně zvolenými kroky při experimentování. Celkově však bylo v práci vykonáno poměrně velké množství experimentů a srovnání se state-of-the-art, což hodnotím kladně.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Jedná se o obtížnější zadání využívající state-of-the-art modely založené na Vision Transformerech pro rozpoznávání tváří. | ||
Rozsah splnění požadavků zadání | |||
Rozsah technické zprávy | Technická zpráva je v obvyklém rozsahu. | ||
Prezentační úroveň technické zprávy | 75 | První polovina technické zprávy je strukturována poměrně dobře, druhá polovina již méně. Výhrady mám k odkazování se na výsledky provedených experimentů již v kapitole tři, která popisuje různé architektury neuronových sítí pro rozpoznávání tváří. V této kapitole by se naopak měl také nacházet popis modelu CLIP, který je však popsán až v kapitole s experimenty. Dále zde chybí ucelený pohled na všechny provedené experimenty a použité datové sady. | |
Formální úprava technické zprávy | 70 | V technické zprávě se nacházejí pouze rastrové obrázky, které nepůsobí příliš dobře. Jako rastrové obrázky jsou zde i grafy a také tabulka (obrázek 2.1). Vykreslené grafy nemají konzistentní popisy - někdy jsou použity české, jindy anglické texty. Výhrady mám také k umisťování obrázků uprostřed textu, namísto nahoru, nebo dolů na stránce. Nevhodně působí použití některých seznamů, použití písmene 'x' místo symbolu krát, nebo text v rovnici v části 4.1.2. Po jazykové stránce mám výhrady k některým formulacím, které neodpovídají stylu odborného textu, a podivným souslovím (např. testovací trénování, architektura patřila mezi ty optimálnější, architektura dosáhla svého optima rekordně již v 5. epoše trénování, accuracy činila rekordních 0,98). | |
Práce s literaturou | 65 | V technické zprávě je citováno celkem 31 zdrojů. Pět z těchto zdrojů jsou webové stránky, jako jsou Wikipedie nebo Medium. U většiny citovených vědeckých článků chybí bibliografické údaje. | |
Realizační výstup | 95 | Odevzdané zdrojové kódy sice neobsahují komentáře, avšak i bez nich se lze v kódu poměrně jednoduše zorientovat. | |
Využitelnost výsledků | V rámci práce student provedl poměrně velké množství experimentů, ve kterých zkoušel různé modely založené na Vision Transformerech pro rozpoznávání tváří. Experimentoval také s multi-task učením a různými datovými sadami. Výhrady mám k některým zvoleným krokům, jako jsou omezení datové sady pouze na obrázky určité velikosti, omezení celkového počtu trénovacích dat, nebo výběr a váhování jednotlivých úloh multi-task učení. Také vyhodnocení by mělo být dle mého názoru konzistentnější s ohledem na metriky - někdy jsou prezentovány hodnoty F1, někdy Accuracy, jindy zase AUC. Celkově byly experimenty zaměřeny dost obecně a pro konkrétní využití v praktické aplikaci by bylo nejspíše potřeba dalších experimentů. |
eVSKP id 154524