PRAX, J. Efektivnost hlubokých konvolučních neuronových sítí na elementární klasifikační úloze [online]. Brno: Vysoké učení technické v Brně. Fakulta strojního inženýrství. 2021.
Diplomová práce prezentuje návrh, implementaci a evaluaci systémů počítačového vidění. Tyto systémy byly navrženy pro klasifikaci obrázků n-úhelníků (obrázky jsou klasifikovány podle typu zachyceného objektu). Student navrhl dva systémy založené na člověkem navržených deskriptorech příznaků (HOG a SIFT + bag of visual words) a dva systémy založené na hlubokých neuronových sítích (ResNet a EfficientNet). Systémy zpracovávají obrazy o rozměrech 224×224 px. Výjimkou je systém založený na HOG deskriptoru, který zpracovává obraz o rozměrech 64×128 px. Navržené systémy student porovnal z hlediska jejich přesnosti a časové náročnosti na čtyřech datových sadách o různé komplexnosti (barevné vs. černobílé obrázky, tři vs. dvacet tříd). Pro každý systém a každou datovou sadu provedl jeden experiment. Zvolené deskriptory i topologie jsou odpovídající. Evaluace kvality klasifikace byla realizována pomocí přesnosti. Zvolená metrika však poskytuje jen základní představu o fungování systému. Bylo by vhodné provést i evaluaci pomocí matice záměn a diskutovat získané výsledky. Jelikož je trénink systémů stochastický proces, je vhodné realizovat pro každý systém a každou datovou sadu více experimentů (nízká komplexnost úlohy to umožňuje). Pro HOG deskriptor bylo zvoleno nastavení parametrů dle literárního pramene, což vedlo k nutnosti změnit rozlišení obrázků. V diskusi nejsou takto vzniklé změny brány v úvahu (mohou ovlivnit klasifikační přesnost). Změnou parametrů HOG deskriptoru lze ovlivnit jak přesnost klasifikace, tak časovou náročnost, což také nebylo při návrhu experimentů ani při vyhodnocení výsledků bráno v úvahu. Díky těmto nedostatkům jsou získané výsledky obtížně využitelné v teorii i praxi. Jako pozitivní hodnotím, že student samostatně nastudoval řešenou problematiku. Jedná se o poměrně rozsáhlou oblast zahrnující i problematik strojového učení. Získané poznatky shrnul v kapitolách 2 až 4. Praktickou část pak popsal v kapitolách 5 až 7. V textu chybí popis podstaty řešené úlohy (klasifikace obrazu). Kapitola 4, která popisuje problematiku neuronových sítí, není vhodně logicky uspořádána a chybí v ní detailnější popis hlubokých konvolučních neuronových sítí, včetně výčtu nejznámějších topologií a jejich vlastností (tyto informace měly být podkladem pro volbu topologií, které student implementoval). V textu občas chybějí vysvětlení pojmů (např. podkapitola 3.1 - buňka a blok u HOG) a objevují se v něm nepřesnosti (např. „Mnoho neuronových sítí neboli jejich architektur, dosahuje vysoké přesnosti s jejich hloubkou“). V praktické části chybějí některé informace nutné pro implementaci a trénování navržených systémů (např. optimalizační algoritmus a nastavení jeho parametrů) i informace o způsobu evaluace navržených systémů (např. vzorec definující přesnost). Po formální stránce shledávám problematickým nedodržení normy pro zápis matematických proměnných (viz obr. 2, 5 a 7), chybějící popisky os (obr. 6) a vložení obrázku, který není v textu použit (obr 4.). Tabulka shrnující výsledky (Tab. 1) je špatně čitelná. Svým charakterem se jedná o výzkumně orientovanou práci. Student při její realizaci pracoval samostatně. Díky výrazné diverzitě zkoumaných přístupů (hluboké učení vs. člověkem navržené deskriptory) nabraly praktické experimenty značný skluz, který se negativně projevil na textu práce i způsoby vyhodnocení výsledků. I přesto, že student začal pracovat v čas a svůj postup konzultoval, nebylo možno ověřit správnost implementace systému založeném na SIFT deskriptoru. S přihlédnutím k těmto faktům hodnotím práci známkou C.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Splnění požadavků a cílů zadání | B | ||
Postup a rozsah řešení, adekvátnost použitých metod | C | ||
Vlastní přínos a originalita | B | ||
Schopnost interpretovat dosažené výsledky a vyvozovat z nich závěry | C | ||
Využitelnost výsledků v praxi nebo teorii | E | ||
Logické uspořádání práce a formální náležitosti | D | ||
Grafická, stylistická úprava a pravopis | B | ||
Práce s literaturou včetně citací | A | ||
Samostatnost studenta při zpracování tématu | A |
Předložená práce je poměrně kvalitní s určitými nedostatky. Autor se věnuje převážně fázi trénování a nehodností inferenci. - SVM nepatří mezi člověkem navržené deskriptory a má blíže k neuronovým sítím. - Formulaci v kapitole 7 o exponecielním poklesu časové náročnosti považuji za nešťastnou, lépe specifikovat jako exponencielní růst (což je takto uvedeno dále v kapitole). - V porovnání chybí časová náročnost inference, která může být důležitější než doba trénování modelu a tedy se týká zhodnocení efektivnosti použití jednotlivých řešení. - Pro SVM je použita pouze jedna varianta nastavení. - Není uvedená metodika zjištění paměťové náročnosti, což může být problematické u GPU paměti s TensorFlow. - Při měření doby trénování jsou v implementaci chyby jako započítání blokujícího zobrazení historgramu v interaktivním okně.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Splnění požadavků a cílů zadání | C | ||
Postup a rozsah řešení, adekvátnost použitých metod | B | ||
Vlastní přínos a originalita | C | ||
Schopnost interpretovat dosaž. výsledky a vyvozovat z nich závěry | B | ||
Využitelnost výsledků v praxi nebo teorii | C | ||
Logické uspořádání práce a formální náležitosti | B | ||
Grafická, stylistická úprava a pravopis | B | ||
Práce s literaturou včetně citací | A |
eVSKP id 132472