DULA, M. Obrazové deskriptory [online]. Brno: Vysoké učení technické v Brně. Fakulta strojního inženýrství. 2023.

Posudky

Posudek vedoucího

Procházková, Jana

Student pracoval na zajímavém tématu různých deskriptorů určených k popisu obrazových objektů. První část práce zavádí základní pojmy z digitální fotografie. Tato část je podle mého názoru slabší, chybí zde podrobnější vysvětlení a propojení jednotlivých částí. Některé definice jsou méně obecné, například Def. 2.10 by byla vhodnější s použitím obecného okolí bodu. V definici 2.2 by nemělo být "oblast", ale množina. V další části student představuje úpravu fotografie na popřední a pozadí pomocí morfologických operací. V textu je chybně uvedeno 2x otevření, podruhé mělo být uzavřené. Také by bylo vhodné ukázat, jaké strukturální elementy byly použity. Pro samotné určení hranice je zde představena vlastní metoda, což hodnotím velmi kladně. Není zde jen využita knihovna nebo funkce, ale je zde popsán krokový algoritmus. Část 3.3 by pak stačila dát jen jako poznámka. V implementaci je poté použit Otsu algoritmus, i když jeho popis v teorii vůbec není uveden. Část 4 se již přímo týká cíle práce a to obrazových deskriptorů. Ty jsou popsány matematicky a jsou vysvětleny jejich vlastnosti.Tato část posloužila jako dobrý základ pro implementaci. Obsahuje pěkné příklady vysvětlující vlastnosti jednotlivých deskriptorů. Část 5 slouží k vyhodnocení výsledků s použitím různých klasifikátorů. Jejich výsledky jsou poté v implementační části, kde je jejich zhodnocení. Student si pro testování vybral databázi MPEG-7, která obsahuje 70 objektů a každý s 20 testovacími obrázky. Tyto obrázky jsou však celkem různorodé a pro navrhované deskriptory nejsou úplně vhodné. Výsledná přesnost kolem 50 procent je pro praktické použití nedostatečná. Přesnost je ale vylepšena v části 8.5, kde je použita vlastní knihovna jen 5 etalonů a přesnost už je velmi dobrá. Cílem práce bylo srovnat deskriptory na reálných datech, nebylo tedy nutné dosahovat nějaké dané přesnosti, ale i tak by bylo vhodnější pracovat s jinými daty. Diplomant pracoval samostatně a pravidelně konzultoval. Měl o programové zpracování i téma velký zájem, jen bohužel na závěr nestihl dopracovat text a srovnání do lepšího stavu. Programové zpracování je v jazyce Python a jako příloha práce jsou jednotlivé metody pro výpočet deskriptorů a klasifikaci. Tuto část hodnotím výborně. Práce obsahuje občas gramatické chyby, některé části jsou méně srozumitelné. Cíle práce však byly splněny a navrhuji hodnocení C.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Splnění požadavků a cílů zadání B
Postup a rozsah řešení, adekvátnost použitých metod B
Vlastní přínos a originalita B
Schopnost interpretovat dosažené výsledky a vyvozovat z nich závěry C
Využitelnost výsledků v praxi nebo teorii C
Logické uspořádání práce a formální náležitosti C
Grafická, stylistická úprava a pravopis D
Práce s literaturou včetně citací C
Samostatnost studenta při zpracování tématu B
Navrhovaná známka
C

Posudek oponenta

Druckmüller, Miloslav

Práce je členěna do devíti kapitol. Po úvodní kapitole následuje kapitola nazvaná Základní pojmy. Tato kapitola je napsaná velice nepořádně a obsahuje řadu chyb a nepřesností. Jen namátkou: "Budeme uvažovat trojrozměrný prostor RGB, kde dimenze tohoto prostoru budeme chápat jako intenzitu jednotlivých barev. Dimenze v prostoru RGB odpovídají intenzitě barev modrá, zelená a červená." Z předešlého textu je patrné, že autor buď neví, co je dimenze vektorového prostoru, nebo byl tento nesmysl vytvořen strojovým překladem. "Čím větší je obor hodnot digitální fotografie, tím více detailů je fotografie schopna zachytit. Pro porovnávaní a zobrazování fotografií s různým oborem hodnot můžeme tyto hodnoty převést na interval podělením původních hodnot funkce velikostí oboru hodnot funkce." Autor si plete rozlišení s dynamickým rozsahem obrazu. Co je "velikostí oboru hodnot funkce"? "Tento postup bývá označován jako prahování, neboli thresholding. V případě barevné digitální fotografie ji lze první převést na černobílou fotografii." Tato věta není česky. "Definice 2.8 (Objekt). Množinu všech pixelů zachycujících posuzovaný tvar budeme nazývat objekt." Toto není matematická definice objektu. "Definice 2.9 (Pozadí). Množina všech pixelů, které nenáleží do množiny objektu, budeme označovat jako pozadí. Pozadí můžeme chápat jako doplněk objektu." Chápu to tak, že každý obraz může obsahovat jen jeden objekt. "Definice 2.22 (Podmnožina množiny). Řekneme, že množina A je podmnožinou množiny B, pokud platí, že všechny prvky množiny B jsou i prvky množiny A. Značíme B A." Bez komentáře. "Definice 2.23 (Posun množiny). Posun množiny A bodem z =(z1, z2 ) značíme jako Bz a je definován jako Bz = {c|c = a + z, a A} ." Jak je definována operace sčítání bodů? Kapitola třetí je napsána o poznání lépe než předešlá kapitola. Na práci z aplikované matematiky je však popis místy vágní. S tvrzením v odstavci 3.3 nelze rozhodně souhlasit. Existuje řada metod pro hledání hranice objektu v barevném obraze, které využívají především prostor HSL resp. HSV. Ve čtvrté kapitole v odstavci 4.1.1  je popsán výpočet hlavních momentů, avšak na závěr je uvedeno poněkud podivné vysvětlení, proč se autor touto v praxi rozšířenou metodou dále nezabývá: "Problém této metody je její náročnější výpočet v porovnání s Hu momenty, které neřeší natočení os. Jedná se však o metodu, která je dobrá pro představení fungování momentových metod. Zároveň z této metody vychází spousta dalších metod včetně Hu momentů, které si představíme nyní."  To, že výpočet je "náročnější", v praxi znamená dosazení do několika všeobecně známých vzorců, které transformují normované centrální momenty na hlavní momenty. To, že z momentové metody založené na hlavních momentech vychází metody, které publikoval Hu, není pravda, neboť z historického hlediska to bylo obráceně.  V části 4.1.3 mi není jasné, co je to úplná báze resp. co je to neúplná báze. (prosím o zodpovězení této otázky při obhajobě práce). Pátá kapitola má nejasný název "Klasifikace výsledků" - co se rozumí výsledkem? Tato kapitola je psána na matematický text značně populání formou, ale je srozumitelná. Závěrečné dvě kapitoly obsahují popis vytvořených programů a hodnocení výsledků. Autor splnil zadání práce. Za největší nedostatek práce považuji nekorektní vyjadřování a populární styl práce.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Splnění požadavků a cílů zadání C
Postup a rozsah řešení, adekvátnost použitých metod C
Vlastní přínos a originalita D
Schopnost interpretovat dosaž. výsledky a vyvozovat z nich závěry C
Využitelnost výsledků v praxi nebo teorii C
Logické uspořádání práce a formální náležitosti C
Grafická, stylistická úprava a pravopis E
Práce s literaturou včetně citací B
Navrhovaná známka
D

eVSKP id 148802