Posudky závěrečné kvalifikační práce

Posudek vedoucího

Čadík, Martin

Celkově považuji práci studenta za mírně podprůměrnou. Student implementoval řešení pro vizuální geo-lokalizaci, které připomíná architekturu CLIP. V implementaci se ve značné míře inspiroval z cizích kódů, a tak hlavní těžiště práce spočívá v experimentech, které jsou dokumentovány v sekci 6. Tyto výsledky bohužel negativně ovlivnila objevená chyba v kódu pro načítání dat, a tak doporučuji vydání errata práce se správnými výsledky a grafy.

Dílčí hodnocení
Kritérium	Známka	Body	Slovní hodnocení
Informace k zadání			Zadání této diplomové práce považuji za obtížnější. Práce vyžaduje pochopení komplexní problematiky vizuální geo-lokalizace a předpokládá, že řešitel bude aktivně experimentovat s novými přístupy k danému problému. Práce navazuje na činnost výzkumné skupiny CPhoto@FIT. Dosažené výsledky nevylepšují předchozí metody, ale ukazují zajímavé trendy, např. výsledky se ztrátovou funkcí NT-Xent.
Práce s literaturou			Student pracoval s literaturou dodanou vedoucím práce a sám si též dohledával další potřebné zdroje.
Aktivita během řešení, konzultace, komunikace			Student byl v průběhu řešení průměrně aktivní, řešení průběžně konzultoval. Došlo však k několika výpadkům, kdy student nepodával žádná hlášení o postupu prací, pravděpodobně v důsledku dlouhodobých zdravotních problémů.
Aktivita při dokončování			Práce byla dokončena na poslední chvíli, její obsah byl ale konzultován s vedoucím práce. Bohužel těsně před odevzdáním student objevil chybu v kódu, která ovlivnila naměřené výsledky.
Publikační činnost, ocenění

Navrhovaná známka: D

Body: 65

Posudek oponenta

Polášek, Tomáš

Práce se zabývá návrhem a implementací techniky pro geo-lokalizaci v přírodních prostředích využívající obrazových dat a přístupu image retrieval. Textová část nejdříve analyzuje problematiku geo-lokalizace obecně. Následně se zabývá přístupy lokalizace fotografií za využití strojového učení. Práce vhodným způsobem analyzuje předchozí řešení a ukazuje hlubší pochopení state-of-the-art článků. Dále jsou zběžně popsány datové sady, které lze využít při trénování modelů. Poznatky z předchozí práce jsou následně využity při návrhu a implementaci vlastního přístupu, který je založen na modelu Visual Transformer a ztrátové funkci NT-Xent. Funkčnost implementace je dále ověřena v limitované, ale přesto podstatné části s experimenty. Přes drobnější problémy s formální, typografickou a prezentační úpravou je technická zpráva v pořádku a dobře vysvětluje motivaci a způsob řešení problému geo-lokalizace. Hlavní problém vidím ve vyhodnocení navrženého přístupu. Experimenty jsou omezeny ja jednu datovou sadu, která je využita ve dvou variantách Uniformní a Sparse. Některé exprimenty nejsou kompletní, například kratší trénování s Triplet Loss a kompletně chybí výsledky Triplet Loss v kombinaci s větším modelem. Nejvíce závažnou je ale implementační chyba (Sec. 6.3), která vrhá pochyby na validitu prezentovaných výsledků. Oceňuji, že student chybu popsal a opravil, ale omezené výsledky s opravenými modely nejsou aktuálně přesvědčivé. Přes výše uvedené problémy navrhuji práci hodnotit stupněm Uspokojivě (D).

Dílčí hodnocení
Kritérium	Body	Slovní hodnocení
Náročnost zadání		Zadání považuji za průměrně obtížné.
Rozsah splnění požadavků zadání		Zadání práce je splněno ve všech bodech. Hlavní výhradou je pochybnost vůči přesnosti předložených výsledků které jsou ovlivněny chybou v implementaci.
Rozsah technické zprávy		Rozsah práce je v požadovaném rozsahu. Technická zpráva obsahuje vše nutné pro pochopení cílů práce a jejich řešení.
Prezentační úroveň technické zprávy	70	Prezentační úroveň práce je na průměrné úrovni. Text je vhodně členěn do kapitol. Nejdříve práce shrnuje problematiku geo-lokalizace s přihlédnutím ke specifikům přírodních prostředí. Dále uvádí přístupy pro lokalizaci s využitím obrazových a dodatečných dat. Existující přístupy jsou vhodně rozebrány do dostatečné hloubky. Následuje kratší popis datových sad, které lze využít při trénování modelů. Práce pokračuje popisem realizace vlastního řešení, které využívá poznatků předchozích state-of-the-art přístupů. Architektura i způsob trénování jsou zde jasně a přehledně vysvětleny. Poslední kapitola práce obsahuje experimenty s navrženým modelem, respektive s jeho menší a větší variantou. Celkově je text vhodně navržený a dobře provádí jak předchozí prací, tak i samotným řešením. Hlavním problémem jsou nejasné formulace, které ztěžují pochopení, obzvláště v kapitole 6 (Experiments). V kapitole není dostatečně jasně popsáno, co jsou to "baseline" modely. Grafy jsou sice barevně kódovány, ale popisky jsou v tomto ohledu nejasné. Například na grafu Fig. 6.2 není jasné co je ještě "green" a co už je "orange"? Graf Fig. 6.2 obsahuje výsledky modelů ViT-L a ViT-B, ale v rámci popisků toto není jednoznačně rozlišeno.
Formální úprava technické zprávy	70	Z typografického hlediska je práce bez vážnějších nedostatků. V případě většiny obrázků by bylo vhodnější zvolit vektorový formát. Obzvláště v případech kdy jde o autorův vlastní výstup, např. Fig. 5.3 s architekturou modelu. Za problém považuji také chybějící odkazy na obrázky z textu, což vede k nejistotě k čemu se vlastně obrázek / tabulka vyjadřuje. Například Tab. 3.2 a 3.3 jsou v textu umístěny příliš daleko od textu ke kterému patří. Celkově bych také uvítal rozsáhlejší popisky - například specifikace co je vlevo a vpravo u Fig. 5.2. Odkazy jsou v textu místy nekonzistentní, například na straně 27 chybí specifikace co odkaz na "3.2" odkazuje. Z jazykového hlediska je technická zpráva v pořádku. Použitý jazyk je spisovný a jednoduše srozumitelný.
Práce s literaturou	80	Práce je založena na podstatném množství původních zdrojů, jejichž kvalita je relativně vysoká. Mezi hlavní problémy patří chybějící citace u některých výrazů, například "VLAD" (str. 10) a Haversine Distance (str. 19). Dále chybí zdroje pro některá tvrzení, například potřeba více modalit pro sparse data (str. 6), velikost datasetu pro úlohu globální geo-lokalizace (str. 24), nebo hard mining v brzkém trénování (str. 29). Celkově je ale citační etika z mého pohledu v pořádku a všechny převzaté prvky jsou vhodně odlišeny.
Realizační výstup	50	Hlavním realizačním výstupem práce je návrh a implementace přístupu pro geo-lokalizaci v přírodních prostředích. Navržená metoda je založena na strojovém učení a využívá techniku image retrieval pro odhad pozice pořízení vstupního obrazu. Návrh a implementace je založena na předchozí práci a vyžadovala pochopení vědeckých článků. Celkově je zvolený přístup spíše iterací na již existující metody využívající Visual Transformer v kombinaci se ztrátovou funkcí NT-Xent. Podstatnou částí jsou také experimenty, které ukazují funkčnost navrženého řešení. Přes funkčnost jsou ale výsledky ve srovnání se starším přístupem CrossLocate řádově horší. Tento fakt není nutně na závadu. Hlavní problém je odhalená chyba v implementaci, která vrhá pochyby o celkové validitě prezentovaných výsledků. Kromě toho v práci také chybí některá měření, která by lépe osvětlila chování navrženého řešení - například modely využívající Triplet Loss pro větší model a Uniformní databázi.
Využitelnost výsledků		Práce vhodným způsobem shrnuje problematiku geo-lokalizace v přírodních prostředích a může být využita jako základ pro další vyzkum v této oblasti. Dále považuji za hodnotný také navržený model a kód pro jeho trénování. Experimentální výsledky práce je nutno považovat za nespolehlivé, ale přesto z nich lze vidět potenciál využití ztrátové funkce NT-Xent.

Navrhovaná známka: D

Body: 60

Otázky

Vysvětlete jak došlo k problému s přiřazováním pozitiv. Zkoušel jste experimenty zopakovat znovu po opravení chyby? Je možné, že by výsledky po kompletním trénování byly srovnatelné s CrossLocate?
Jak se model s jedním enkodérem vyrovná s různou reprezentací dat hloubky a RGB? Jak si vysvětlujete, že verze s dvěmi enkodéry nemá v tomto ohledu znatelnou výhodu z pohledu přesnosti lokalizace?
Proč je využití těžkých negativ v počátku trénování nevýhodné? Jak tento problém řeší ztrátová funkce NT-Xent?