DOČKAL, R. Model hlubokého učení vhodný pro vizuální detekci a klasifikaci obecného objektu z průmyslu [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2021.
Bakalářská práce je zaměřená na tvorbu modelu vhodného pro vizuální detekci a klasifikaci obecného objektu z průmyslu. Zadání považuji za jedno z náročnějších. Student práci dokumentoval v technické zprávě. Práce je psaná čtivě s minimálním množstvím jazykových chyb. Jediné co bych práci vytkl je místy neformálnost textu. Autor prokázal znamenitou práci s literaturou, na základě které práci zpracoval. Výstupem práce je dataset, model hlubokého učení naučený na tomto datasetu a skripty v jazyce Python pro tvorbu dalších modelů. Naučený model dosáhl výborných výsledků. Výstupy práce jsou použitelné například pro třídění výrobků na páse v průmyslu. Zadání práce považuji za splněné v plné míře. Student pracoval samostatně a práci vhodně konzultoval. Práci měl napsanou v předstihu. Doporučuji práci k obhajobě.
Bakalářská práce p. Dočkala si klade odvážný cíl - klasifikaci těžko popsatelných výrobků v průmyslu. Práce je napsána na 31 stranách normotextu, což je sice dolní hranice doporučeného rozsahu, ale mnohdy obsah může překvapit. Hned v úvodu textu se tedy překvapivě dozvídáme, že neurony lidského mozku buď přenáší nebo nepřenáší signál, z čehož autor práce dovozuje jasnou binární funkci lidského mozku. Obrací tedy léty zavedený model aktivační funkce biologického neuronu popsaného nejčastěji nelinearitou typu sigmoida. Možná proto, že je čerpáno z literatury [1] (www.neuroskills.com), ale bohužel ze sekce “úrazy mozku - brain-injury”. Co se týče umělých neuronů, je potřebné vědět hned z úvodu, že (citace)„…protože umělé neurony pracují s číselnými hodnotami, musíme na vstup vkládat data v číselné formě“. … K samotné práci – ta je rozdělena na teoretickou a praktickou část. V teoretické je čerpáno zejména z online literatury, což se v dnešní době nabízí a bývá to výhodou. Zde by bylo ale záhodno pečlivě volit mezi vědeckou literaturou a vědeckopopulární, přičemž je vhodné upřednostňovat zejména tu první. Pak by se nestávaly chyby, kdy jsou např. převzaty grafy bez popisů os (viz obr. 1.3) – ale to je spíše chyba autora dané web stránky. Navíc by se čtenář při případném kliknutí na literární odkaz nemusel obávat leknutí při otevření stránky, kdy výhoda YOLO algoritmu oproti R-CNN je výmluvně a přesvědčivě prezentována pomocí krátkého videa s motivy kung-fu, kdy YOLO prostě rozseká R-CNN, na konci videa je navíc emotivní výbuch [13] (towardsdatascience.com). Samozřejmě to vše nemění nic na faktu, že student zvolil vhodnou metodu segmentace, kterou YOLO bezesporu je. Jen bych závěry v kapitole 2.3 o správném výběru metod mírnil, jelikož vše je zatím v teoretické rovině a nemáme žádný konkrétní dataset, pro který bychom vybrali vhodnou metodu. Student ale zvolil neotřelý opačný postup (viz kapitola 3) – nejprve tedy zvolil metodu a pak teprve vhodný dataset (alespoň tak to vyplývá z textu). Dále jsem nepochopil omezení, že YOLOv3 je určena pouze pro čtvercový obraz (to je otázka k obhajobě). Za zmínku stojí citace kapitoly 3.1.1., kterou nechávám bez komentáře: „Protože byl dataset složen z fotografií, bylo nutné vytvořit scénu a obstarat si kvalitní fotoaparát na kterém lze nastavit velké množství parametrů. Jelikož zadání říká, že se musí jednat o detekci objektů z průmyslu, musela být scéna co nejvíce podobná průmyslovému prostředí. Průmyslovým prostředím zde byl myšlen dopravní pás, na kterém se objevují různé objekty. Dopravní pás bývá obvykle černý, a proto bylo ve scéně použito černé pozadí.“ Dále je v textu popsána scéna a důmyslné zavěšení fotoaparátu i LED světla pomocí provázků tak, aby objektiv snímal kolmo dolů. Zde radím - pokud nejsou k dispozici provázky, lze použít stativ, magnetický držák nebo klidně i izolepu, která bude asi stabilnější, než provázky. Ale pokud to fungovalo, tak nemám problém – účel světí prostředky. Teprve v kapitole 3.1.2. se dozvídáme o datasetu – spíše školním nebo kancelářském, než průmyslovém. Jedná se totiž o „gumičky, kolíčky, připínáčky, párátka, sirky, kancelářské sponky a připínáčky ve tvaru vlajky, které dále budou nazývány „vlaječky““, což konečně dává obrysy praktické části práce. Při augmentaci byl dataset rozšířen o rotaci 90/180 stupňů, čímž je trénovací množina jistě obohacena, ale nechápu, proč nešlo rozšířit dataset o obecnou rotaci. Možná z důvodu výše zmiňované podmínky čtvercového obrazu. Ale i to by šlo zajisté splnit. Je ale nutné ocenit množství pořízených fotografií tvořících dataset. Dle popisu v textu tento dataset čítal 20000 fotografií. Na přiloženém CD jsem však nenašel jediný snímek. Zato zdrojové kódy byly komprimovány ZIPem, aby se původní zaplnění CD z 54kB snížilo na 15kB. Alespoň text práce ve formě PDF bych tedy uvítal na CD, když zbylo místo. Velmi inspirativní je pak obrázek na str. 36 ilustrující predikce. Prosím o promítnutí v rámci obhajoby a vysvětlení jeho podstaty. V závěru (kap. 6) je pozitivně zhodnocena implementace YOLOv3. Cituji „…Výsledky implementace architektury YOLOv3 byly velmi dobré, a proto lze říci, že zadání bylo splněno. Přesnost této architektury dosahovala velmi vysokých procent…“. Podle čeho je usuzováno na vysoká procenta? Zde nezbývá vzhledem k absenci porovnání s jinými příklady pouze věřit obrázku na s. 39, kdy v optimálních podmínkách, tedy krásně černé pozadí a kontrastní objekt, jsou spolehlivosti klasifikace přes 90%. V současné době jsou již ale takové spolehlivosti překonány. Text práce a jeho osobitý charakter dává jistotu, že práce je původní a je dílem studenta. Práci doporučuji k obhajobě před komisí, zejm. s ohledem, že se jedná o bakalářskou práci a hlavně k obhájení rozporu mezi popisovaným závěrem v kapitole 6 s vynikajícími výsledky a mezi výsledky navnímanými oponentem na základě psaného textu a na základě podkladů ve formě CD. Je možné, že student jen nedokázal textem „prodat“ svou práci. Práci hodnotím 55 body s rozptylem +- 15 bodů doporučených ke korekci komisí.
eVSKP id 133736