Posudky závěrečné kvalifikační práce

Posudek vedoucího

Hradiš, Michal

Student spolupracoval na plánovaném výsledku projektu, vytvořil kvalitní syntetickou datovou sadu a jeho výsledky pravděpodobně dále využijeme v projektu. Mohl ale vyhodnotit více experimentů a začít s nimi dříve. Student práci prezentoval na studentské konferenci Excel@FIT 2025.

Dílčí hodnocení
Kritérium	Známka	Body	Slovní hodnocení
Informace k zadání			Téma souvisí s plánovaným výsledkem MK NAKI projektu Smart Digilinka. Cílem bylo vytvořit nástroj pro rekonstrukci co nejkvalitnější podoby textury při digitalizaci velkoformátových historických předloh (například map) z více fotografií. Student řešil jednu část, kterou je spojení již zarovnaných fotografií. Výsledkem jsou natrénované neuronové sítě i datová sada, které pravděpodobně v projektu využijeme.
Práce s literaturou			Student si vyhledal zdroje v dostatečném rozsahu a dokázal je využít.
Aktivita během řešení, konzultace, komunikace			Student pracoval průběžně a svůj pokrok konzultoval. Účastnil se i schůzek pracovní skupiny vytvářející plánovaný výsledek projektu. Konzultovat mohl ale důsledněji.
Aktivita při dokončování			Práce byla dokončována i blízko termínu odevzdání.
Publikační činnost, ocenění			Student práci prezentoval na Excel@FIT 2025.

Navrhovaná známka: B

Body: 84

Posudek oponenta

Herout, Adam

Řešitel se zaměřil pouze na dílčí část celého problému a tuto skutečnost dostatečně nereflektuje v technické zprávě. Technická zpráva trpí mnoha formálními chybami, kapitola 2 obsahuje mnoho irelevantních informací, návrh je smíchaný s implementačními detaily (i s teorií) a nepoužívá vhodných formalizmů (ani číslování kapitol), takže interpretace textu je nejednoznačná a neumožňuje dobrou další práci.

Dílčí hodnocení
Kritérium	Body	Slovní hodnocení
Náročnost zadání		Zadání odpovídá náročnosti a zaměření magisterského studia na FIT. Ve své úplnosti by patřilo mezi náročnější, ale řešitel se zaměřil pouze na omezenou část celého problému.
Rozsah splnění požadavků zadání		Práce vytváří zdání, že se zabývá celým problémem rekonstrukce velkého obrazu/textury z dílčích snímků (obr 3.1). Ve skutečnosti je v práci řešen pouze problém fúzování již zarovnaných čtvercových výřezů definované velikosti. Není řešen problém zarovnání vůči skutečnému refernčnímu snímku (řešitel používá "zkratku", že pro zarovnání používá degradovaný chtěný (ground truth) obrázek, neřeší spojení jednotlivých rekonstruovaných dlaždic do velkého snímku, jen okrajově řeší zarovnání jednotlivých snímků, atd.). Bylo by legitimní v technické zprávě korektně uvádět, že se řešitel zaměřuje na omezenou oblast, ale technická zpráva toto nereflektuje a nediskutuje vzniklá omezení, což ukazuje na nedostatečné pochopení samotného řešeného problému.
Rozsah technické zprávy		Text technické zprávy má obvyklý rozsah. Kapitola 2 je ale zbytečně rozsáhlá a popisuje celý vějíř různých technik počítačového vidění, které vůbec nejsou v práci použity a z velké části ani nejsou relevantní. Naopak práce nedobře reflektuje zaměření na úzkou část problému a provedené experimenty nejsou přesvědčivé a dobře reflektované.
Prezentační úroveň technické zprávy	60	Kapitola 2 je eklektickým výpiskem z mnoha částí počítačového vidění a zpracování obrazu, z nichž mnoho vůbec v práci nebylo použito a ani nebylo relevantních. Kapitola 3 (návrh a implementace) je souvislý proud textu; bylo by daleko vhodnější použít matematický a algoritmický zápis, chybí dobré definování zaměření práce a vzniklá omezení. V téže kapitole opět dochází k vysvětlování existujících technik (např. obr. 3.8, 3.10, 3.11 a další). Návrh není dostatečně oddělený od implementace. Experimenty se zaměřují pouze na samotnou rekonstrukci jednoho výřezu konstantních rozměrů z dílčích dlaždic téže velikosti. Chybí vyhodnocení přesnosti zarovnání pomocí optického toku (na to by skvěle posloužila generovaná syntetická data), chybí vyhodnocení, jak dobře/špatně na sebe rekonstruované dlaždice navazují. Celé učení i vyhodnocení (!) používá referenční snímek, který nebyl vyfotografován, ale jedná se o ground-truth obrázek, takže experimenty vrhají pouze omezené světlo na skutečnou použitelnost a užitečnost řešení.
Formální úprava technické zprávy	65	Kapitoly od třetí úrovně nejsou číslované, takže je obtížné se odkazovat na části technické zprávy. Celá zpráva (kromě vzácných rovnic v kapitole 2, která ale nemá vždy vztah k prováděnému řešení) má charakter souvislého textu bez formalizmů: matematických rovnic, algoritmického zápisu, atp., takže mnoho informací o algoritmech a datech je nejednoznčných a není možné se na ně jasně odkázat a experimenty nejsou replikovatelné. Několik stran je ukončených předčasně (např. 7, 19, 28, 32, 34, 37), patrně vlivem nevhodného vkládání obrázků. Po jazykové stránce je práce velice dobrá.
Práce s literaturou	70	Technická zpráva cituje velké množství odborných prací. Mnoho z nich není pro řešení vůbec relevantních (3D rekonstrukce, GAN, superrozlišení, transformery, ...). Vytvořené řešení a provedené experimenty neukazují na skutečně dobré pochopení problematiky.
Realizační výstup	65	Realizační výstup sestává ze skriptů v jazyce Python pro učení modelů a vyhodnocení výsledků a z řešení v software Blender pro generování syntetických dat (a z vytvořené a pořízené datové sady). Skripty pro učení a vyhodnocení neuronových sítí neřeší autorství – je přitom pravděpodobné, že mnoho částí kódu bylo použito z nějakého tutoriálu či referenčního řešení.
Využitelnost výsledků		Vytvořené řešení je pouze parciálním řešením celého problému a experimentální vyhodnocení je v mnoha ohledech nepřesvědčivé a neukazuje na dobré pochopení problému.

Navrhovaná známka: D

Body: 65

Otázky

Vaše řešení předpokládá "dokonale" zarovnané vstupní dlaždice, které jsou fúzovány do výsledných dlaždic. Fúze by tak mohla probíhat na jednotlivých pixelech, nebo na velice malém okolí jednotlivého pixelu (klidně 5×5 pixelů). Obrovské modely, které používáte (dlaždice 512×512) jsou tak možná naprosto zbytečné a stejnou práci by možná zastalo mnohořádově jednodušší řešení. Proč jste volil tak komplexní řešení? Jaké má výhody a nevýhody?
Je pravděpodobné, že fúzované dlaždice na svých okrajích nebudou hladce navazovat. Nestálo by za to v experimentálním vyhodnocení měřit i PSNR/SSIM na spojích dlaždic?
Jako referenční fotografii vždy využíváte degradovaný "GT" snímek. Při skutečném použití by ale tento nebyl k dispozici. Odhadněte, jak velký vliv na použitelnost (a přesnost) navrženého řešení by mělo, kdyby bylo použité "realisticky", tj. zarovnání by probíhalo vůči přehledovému snímku. Není použitá zkratka řešení příliš omezující pro skutečnou použitelnost Vaší práce?