MITRENGA, M. Konvoluční neuronová síť pro segmentaci obrazu [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2018.
Zadání bakalářská práce Michala Mitrenga na téma Konvoluční neuronová síť pro segmentaci obrazu řeší problematiku návrhu a realizace segmentace obrazu pomocí konvoluční neuronové sítě a vytvoření tréninkové množiny obrazů. Zadání z pohledu konvolučních neuronových sítí bylo náročné. Autor práce během studia neabsolvoval předmět, ve kterém se toto téma přednáší. Informace získával především samostudiem a konzultacemi. Bakalář pracoval samostatně, dosažené výsledky konzultoval. Výsledkem práce je - teoretický rozbor problematiky počítačového vidění se zaměřením na segmentaci obrazu, - úvod do problematiky umělých a konvolučních neuronových sítí, - konvoluční neuronová síť CNN Vgg16 s architekturou SegNet, která byla doučená na obrazy z databáze CamVid, - zhodnocení dosažených výsledků z pohledu doučení sítě, nastavení jednotlivých parametrů a testů segmentace pomocí databází obrazů CamVid a MTech. Z výše uvedených důvodů navrhuji hodnocení bakalářské práce D / 66 bodů.
Zadání bakalářské práce studenta Michala Mitrengy patřilo mezi odborně obtížné. Student si zvolil studijně náročné téma konvolučních neuronových sítí (CNN), požadující od něj další samostudium nad rámec bakalářského studijního programu. Bohužel student náročnost tématu podcenil. Cílem práce bylo po získání odborných znalostí: vytvořit vhodnou databázi testovacích dat ve spolupráci s externí firmou, zvolit konfiguraci CNN vhodnou pro segmentaci obrazu a na vytvořené databázi testovacích snímků prezentovat dosažené výsledky. Požadovaných cílů práce bylo dle mého názoru dosaženo v akceptovatelné míře, ale množství a úroveň studentem prezentovaných vlastních výsledků je na podprůměrné úrovni. Stupeň orientace studenta v dané problematice je místy na nízké úrovni, často si z faktů uváděných v práci vyvozuje mylné závěry (viz má první otázka). Zvolenou koncepci řešení práce studentem lze označit s výhradami za správnou. Domnívám se, že student v rámci snahy o časovou optimalizaci doby učení přistoupil k výraznému snížení rozlišení trénovacích a testovacích snímků až na rozlišení 180x240 bodů. Při tomto rozlišení z obrazu již vymizely prakticky všechny strukturní detaily a trénovaná neuronová síť tak měla možnost k učení využít pouze informaci o barvě a poloze silně podvzorkovaného shluků pixelů. Nabízí se otázka, proč student v rámci experimentů s volbou minimálního rozlišení raději nezvolil možnost provést výřez menší oblasti z obrazu v původním rozlišení, který by ale přesto obsahoval požadované segmentovatelné objekty a umožnil tak trénované síti využít k učení i informace o struktuře objektů. Moji další výhradou k řešení práce je absence podrobnějšího numerického zhodnocení úspěšnosti detekce alespoň na jediném snímku ze studentem pořízené databáze. Jako oponent vidím pouhé zobrazení výsledného segmentovaného snímku jako velice subjektivní kritérium úspěšnosti segmentace. Student měl provést manuální anotaci objektů, alespoň na jednom jediném jím pořízeném snímku a využít ji k numerickému vyhodnocení segmentace dle vztahů z kapitoly 7.4.1. Proč student vytvořil vlastní databázi testovacích snímků v rozsahu cca 50 snímků přiložených na CD, ale pro vlastní zhodnocení úspěšnosti segmentaci použil pouze 3 snímky, které uložil jen na CD, a do textu práce uvedl pouze snímek jediný, mi není zcela jasné. (viz má druhá otázka). Dalším problémem práce je nevyváženost rozsahu textu věnovanému popisu teoretických a převzatých znalostí (cca. 26 stran) a popisu studentovi vlastní práce (cca. 13 stran). V závěrečné kapitole 8 student uvádí, cituji: „ Abych upravil vstupní obrazy, nastavil parametry sítě a započal proces učení, využil jsem skriptu od Matlabu.“. Nabízí se tedy otázka, jak velká část všech skriptů prezentovaných na CD je vlastním dílem studenta a jaká část byla převzata z prostředí Matlab. Z formálního hlediska je práce na podprůměrné úrovni. Množství překlepů a chybně sestavených vět je nad tolerovatelnou míru. Přestože je tento text, již druhým studentovým pokusem o obhájení bakalářské práce, student nevěnoval pečlivé kontrole výsledného textu nijak zvýšené úsilí. Při čtení práce čtenář postřehne, že se v textu na straně 50 mění formát řádkování textu tak, jak student pravděpodobně přebíral informace z různých zdrojů. Student v textu na straně 13 v kapitole 2.2 avizuje uvedení 4 základních metod předzpracování obrazu, ale dále již uvádí pouze dvě. Proč na straně 14, ani nikde dále v textu neuvádí principy a matematické vztahy popisující fungování konvolučních filtrů mi není jasné, jedná se přece o fundamentální znalosti nutné pro pochopení fungování CNN. Matematický vztah (7.1) na straně 45 postrádá znaménko přiřazení do nějaké výsledkové veličiny a vysvětlivka významu veličin ve vztahu obsahuje i veličiny potřebné až v dalším vztahu (7.2). Kapitola 7.4.3 prezentující výsledky segmentace by si rozhodně zasloužila větší prostor v textu i obrazových přílohách a pravděpodobně svědčí o časové tísni, do které se student v závěru řešení práce dostal. Práce bohužel není psána v logickém sledu, student na mnoha místech práce používá pojmy, jejichž význam je popsán až následně v dalších kapitolách práce, což výrazně stěžuje orientaci čtenáře v textu (např. pojmy: U-Net, VGG, DriNet atd.). Pokud bereme jako jeden z obecných cílů každé bakalářské práce prověřit schopnost studenta samostatněji pracovat a následně prezentovat výsledky vlastní práce, mohu zodpovědně konstatovat, že student je schopen samostatně pracovat, ale o jeho schopnosti kvalitně dokumentovat dosažené výsledky mám silné pochybnosti. Z úrovně zpracování textu práce odhaduji, že student pravděpodobně věnoval veškeré úsilí i své časové a výpočetní možnosti samotnému řešení úkolu a na samotné zpracování textu bakalářské práce již mu nezbývalo mnoho času, což je velká škoda. Přesto mě hlavně samotná snaha o vyřešení úkolu studentem a množství vynaloženého úsilí přesvědčila o jeho bakalářských schopnostech a práci tedy doporučuji s uvedenými výhradami k obhajobě s hodnocením: E / 57 bodů.
eVSKP id 112899