HORÁK, M. Sémantický popis obrazovky embedded zařízení [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2020.

Posudky

Posudek vedoucího

Janáková, Ilona

Předložená diplomová práce pana Horáka, věnující se detekci a klasifikaci prvků uživatelského rozhraní na snímcích displejů tiskáren, je po formální stránce správně zpracována dle šablony a standardu diplomových prací. Text je psaný v angličtině s dle mého názoru dobrou jazykovou úrovní. Po formální stránce bych vytkla jen malý text a detaily v některých obrázcích. Dokument má od úvodu po závěr cca 75 stran, s přílohami a dalšími patřičnými listy celkem 102. Za čistě teoretických lze považovat přibližně 40 stran. Teorie je dobře zpracována. Přehledně jsou zmíněny a srozumitelně vysvětleny všechny důležité pojmy týkající se obecně neuronových sítí a specifik konvolučních neuronových sítí. Student provedl a zpracoval přínosnou podrobnou literární rešerši architektur pro klasifikaci a také pro detekci objektů na obrazech pomocí KNS. Čas a prostor v práci také věnován hledání a výběru vhodných databází použitelných pro daný účel. O dobrém nastudování problematiky a dobré práci s literaturou vypovídá úctyhodný seznam použitých zdrojů čítající 66 odkazů. V rámci praktické práce se student věnoval časově náročné anotaci a vhodnému předzpracování obrazů (včetně snahy o potlačení moaré) dodané databáze snímků tiskáren (1400 snímků). Jelikož je tato galerie pro KNS stále spíše menší, rozšířil ji o vyhledanou veřejně dostupnou galerii uživatelských prostředí. Pro samotnou implementaci bylo zvažováno několik platforem. Z popsaných důvodů byla zvolena Tensorflow Object Detection API. Pro automatizaci některých procesů, např. konverzi datasetů, zálohování modelů a detailnější vyhodnocení modelů a vizualizaci výsledků detekce, napsal student několik skriptů. Pro samotný výběr vhodného modelu a nastavení optimálních parametrů učení postupoval student systematicky v několika krocích volbou řady pracných experimentů. K tomuto bodu mám asi jedinou výhradu k dokumentu. Některé testy (sledující například rychlost vyhodnocení vzhledem k rozlišení vstupních obrázků) jsou „schované“ přímo v textu. Mohly být rozebrány a prezentovány o něco lépe. Přesto postup a učiněné závěry považuji za správné. Výsledný model, vybraný jako kompromis mezi rychlostí a úspěšností vyhodnocení, vycházející z architektury SSD Inception v2, má průměrnou přesnost predikce přes 90% s průměrným časem lepším než 300 ms. Toto lze vzhledem k rozmanitosti vstupních dat považovat za velmi dobrý výsledek, který splňuje předem stanovené požadavky. Získaná úspěšnost zatím sice neumožňuje plně automatické testování tiskáren, ale jistě velmi usnadní a zrychlí proces testování. Student pracoval na své diplomové práci hned od začátku velmi svědomitě a také samostatně. Pravidelně informoval o postupu své práce a dalších plánech. Předložený dokument i výsledky práce jistě svědčí o inženýrských schopnostech pana Horáka, proto práci doporučuji k obhajobě s hodnocením A (91b).

Navrhovaná známka
A
Body
91

Posudek oponenta

Richter, Miloslav

Kvalita posuzované práce je na požadované úrovni. Práce za zabývá použitím strojového učení pro rozpoznání elementů obrazu. Tato problematika je značně rozsáhlá, především z hlediska použitelných metod a jejich implementace. Zadání lze považovat za splněné. K práci bych měl několik výhrad. Popis obsahuje teorii a konkrétní řešení úlohy, ale její podstata je zmíněna pouze slovně v úvodu. Vhodné by bylo tento text doprovodit obrázky. Úvodní kapitoly (např. kapitola 1 sítě CNN) by v souvislosti s touto znalostí řešeného problému byly srozumitelnější. Popis teorie je značně rozsáhlý, na druhou stranu dosti kvalitní, a prokazuje velmi dobrou práci s literaturou. Již v této části mohla být (viz bod 2 zadání) u každé metody zmíněna vhodnost pro řešenou úlohu. Text místy znepřehledňuje to, že popis teorie se střídá s vlastní prací (např. kap. 3.2.3 kde se v rámci datasetu částečně seznámíme s pracovištěm, kde bude úloha implementována), přičemž na tuto skutečnost není žádným způsobem upozorněno. Například u databáze snímků tiskáren není výraznější informace o tom, že je to databáze konkrétně pořízená pro řešení této úlohy a splývá s popisem standardních databází. Práce je psána v anglickém jazyce a považuji ji za kvalitní. Vyskytují se drobné nesrovnalosti: v kapitole 1.3.2, 1.3.3 se střídají termíny Regularization, Regulation – jaký je mezi nimi rozdíl? U obr 5.1, 5.2 postrádám popis jednotlivých křivek v obrázku. V práci mohla být uvedena definice výrazu 49C^2 (str 41). Hlavním přínosem práce je implementace různých typů algoritmů pro zpracování dané úlohy. To v sobě zahrnuje úpravu databází a jejích anotací, učení, testování, zjištění výsledků a jejich zhodnocení. Testování bylo prováděno několika metodami pro různě modifikované databáze. Cenné jsou především části práce srovnávající jednotlivé přístupy řešení z hlediska kvality a rychlosti. Kladně je potřebné hodnotit i to, že použité SW nástroje jsou nejen vyjmenované, ale v textu jsou i informace o verzích použitého SW a způsobu jeho instalace a nastavení, vhodné pro úspěšný překlad. Celkově práce svědčí o znalostech a orientaci studenta v dané problematice. Zvolená koncepce a postup řešení je správný. Úvodní část popisující použité nástroje je převzatá; sestavení, nastavení a učení modelu databáze a SW scripty lze považovat za práci studenta. Předložená práce svědčí o magisterských schopnostech studenta a navrhuji hodnocení 85.

Navrhovaná známka
B
Body
85

Otázky

eVSKP id 126888