STRÝČEK, Š. Vision transformery pro rozpoznávání tváří [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Špaňhel, Jakub

Student se zhostil zadaného úkoly svědomitě. Nastudoval si dostupné architektury a přístupy využitelné pro rozpoznávání tváří pomocí vision transformerů. V průběhu řešení DP provedl řadu experimentů a dosáhl výsledků srovnatelných se současným state of the art. Vzhledem k výše uvedenému a jeho účasti na konferenci Excel@FIT hodnotím práci stupněm A.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Zadání práce se zaměřuje na využití arcihtektury neuronových sítí typu  vision transformer pro úlohu rozpoznávání tváří, kde dosud dominovali konvoluční neuronové sítě.  Student měl za úkol vybrat vhodné modely/architektury, experimentovat s nimi a modely vyhodnotit na úloze verifikace identity osoby na základě rozpoznání tváře. Obecně se jedná o těžší zadání se značným množstvím samostudia a dlouhými experimentačními cykly.
Práce s literaturou Student si sám dohledal veškeré potřebné zdroje a další literaturu.
Aktivita během řešení, konzultace, komunikace Student byl aktivní po celou dobu řešení diplomové práce. Průběžně sdílel výsledky i mimo domluvené konzultace. Na konzultace byl vždy řádně nachystaný.
Aktivita při dokončování Práce byla dokončována s dostatečnou časovou rezervou. Text práce byl průběžně konzultován. Finální verze práce byla k dispozici ke kontrole před odevzdáním.
Publikační činnost, ocenění Student se zúčastnil studentské konference Excel@FIT.
Navrhovaná známka
A
Body
95

Posudek oponenta

Kišš, Martin

Dle mého názoru se jedná o práci s nedostatky především v prezentační a formální úpravě technické zprávy a některými nepříliš vhodně zvolenými kroky při experimentování. Celkově však bylo v práci vykonáno poměrně velké množství experimentů a srovnání se state-of-the-art, což hodnotím kladně.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Jedná se o obtížnější zadání využívající state-of-the-art modely založené na Vision Transformerech pro rozpoznávání tváří.
Rozsah splnění požadavků zadání
Rozsah technické zprávy Technická zpráva je v obvyklém rozsahu.
Prezentační úroveň technické zprávy 75 První polovina technické zprávy je strukturována poměrně dobře, druhá polovina již méně. Výhrady mám k odkazování se na výsledky provedených experimentů již v kapitole tři, která popisuje různé architektury neuronových sítí pro rozpoznávání tváří. V této kapitole by se naopak měl také nacházet popis modelu CLIP, který je však popsán až v kapitole s experimenty. Dále zde chybí ucelený pohled na všechny provedené experimenty a použité datové sady.
Formální úprava technické zprávy 70 V technické zprávě se nacházejí pouze rastrové obrázky, které nepůsobí příliš dobře. Jako rastrové obrázky jsou zde i grafy a také tabulka (obrázek 2.1). Vykreslené grafy nemají konzistentní popisy - někdy jsou použity české, jindy anglické texty. Výhrady mám také k umisťování obrázků uprostřed textu, namísto nahoru, nebo dolů na stránce. Nevhodně působí použití některých seznamů, použití písmene 'x' místo symbolu krát, nebo text v rovnici v části 4.1.2.  Po jazykové stránce mám výhrady k některým formulacím, které neodpovídají stylu odborného textu, a podivným souslovím (např. testovací trénování, architektura patřila mezi ty optimálnější, architektura dosáhla svého optima rekordně již v 5. epoše trénování, accuracy činila rekordních 0,98).
Práce s literaturou 65 V technické zprávě je citováno celkem 31 zdrojů. Pět z těchto zdrojů jsou webové stránky, jako jsou Wikipedie nebo Medium. U většiny citovených vědeckých článků chybí bibliografické údaje.
Realizační výstup 95 Odevzdané zdrojové kódy sice neobsahují komentáře, avšak i bez nich se lze v kódu poměrně jednoduše zorientovat.
Využitelnost výsledků V rámci práce student provedl poměrně velké množství experimentů, ve kterých zkoušel různé modely založené na Vision Transformerech pro rozpoznávání tváří. Experimentoval také s multi-task učením a různými datovými sadami. Výhrady mám k některým zvoleným krokům, jako jsou omezení datové sady pouze na obrázky určité velikosti, omezení celkového počtu trénovacích dat, nebo výběr a váhování jednotlivých úloh multi-task učení. Také vyhodnocení by mělo být dle mého názoru konzistentnější s ohledem na metriky - někdy jsou prezentovány hodnoty F1, někdy Accuracy, jindy zase AUC. Celkově byly experimenty zaměřeny dost obecně a pro konkrétní využití v praktické aplikaci by bylo nejspíše potřeba dalších experimentů.
Navrhovaná známka
C
Body
75

eVSKP id 154524