Posudky závěrečné kvalifikační práce

Posudek vedoucího

Hesko, Branislav

Diplomová práca práca študentky práca študentky Nikol Hunkařovej je v rozsahu 61 strán. Oceňujem, že študentka pre prácu zvládla nový programovací jazyk Python a vytvorila komplexný postup detekcie a vyhodnotenia smeru pohľadu. Naviac, celá práca je implementovaná tak, aby bežala bez väčších ťažkostí na platforme Raspberry Pi. Aj napriek tomu, že niektoré časti algoritmu vykazujú zvýšenú mieru chýb, zhostila sa študentka úlohy zdatne a po funkčnej stránke práce je zadanie splnené v plnom rozsahu. Funkčnosť jednotlivých komponent bola riadne otestovaná a okomentovaná. Kedže väčšina práce vznikala v posledných týždňoch pred odovzdaním, časovým presom je poznačená textová časť práce. Text práce nie je plynulý, často budí dojem, že sa jedná o súbor poznámok, nie o diplomovú prácu. Niektoré kapitoly ako napríklad kapitola pojednávajúca o Eyetrackeroch by mohli byť rozsiahlejšie. Nie úplne zrozumiteľná je práca s pixelmi, pixelom sú označované body obrázku i body zvoleného rastru, v ktorom je realizovaná detekcia, čo sa prejavuje na zrozumiteľnosti textu. Naviac, v práci sa nachádza mnoho preklepov a syntaktických chýb. Oceňujem však podkapitolu s obrazovými výsledkami, ktorá reflektuje stav funkčného riešenia. Práca s literatúrou je adekvátna. Aktivita študentky rástla s blížiacim sa termínom odovzdania, práca vznikala najmä pred odovzdaním, čo sa prejavilo na textovej časti práce. Aj napriek tomu, študentka v rámci konzultácií bola aktívna, sama prichádzala s riešeniami na vzniknuté problémy. Zadanie je splnené vo všetkých bodoch. Vzhľadom na uvedené skutočnosti navrhujem hodnotenie B/82 bodov.

Navrhovaná známka: B

Body: 82

Posudek oponenta

Mézl, Martin

Předložená práce studentky Nikol Hunkařové je členěna do čtyř kapitol na 61 stranách. V teoretické části práce jsou popsány základy eyetrackingových metod – snímání a detekce očí v obraze nebo videu. Text rešerše je nesourodý, často se jedná o méně či více zdařilé překlady zdrojových článků (např. text v kapitole 1.4.2 na straně 28 nahoře). Kapitola 1.4.3 – „Konkurenční eyetrackery“ je z mého pohledu zcela nedostatečná, protože diskutuje pouze tři různé eyetrackery. U kapitoly 1.4.5 postrádám jakoukoli referenci na odbornou literaturu. V kapitole 2 – „Detekce očí“ je v úvodní podkapitole obecný popis Raspberry Pi a připojené kamery, který bych očekával až v praktické části při popisu realizace řešení. Celkově je tato kapitola na pomezí teoretické a praktické části, protože jednotlivé postupy jsou implementovány a částečně diskutovány, ale předložené obrázky se týkají jiných aplikací než detekce očí (např. 2.24, 2.29 a další). Z textu kapitoly 2.4.5 není jasné, proč jsou po sobě použity morfologické operace eroze, dilatace, otevření a uzavření. V rámci praktické části byl realizován eyetracker využívající zařízení Raspberry Pi. V popisu postrádám některé důležité parametry snímání, které výsledky jistě ovlivní, jakými jsou např. vzdálenost testovaného subjektu od monitoru, velikost obrazovky, vliv okolního osvětlení a další. V implementaci je popsána základní metoda založená na kalibraci okrajových bodů a následné analýze směru pohledu detekovaných očí. V textu práce postrádám rovněž obrázky demonstrující jednotlivé kroky zpracování obrazu, popř. možností a limitací nastavení algoritmů (např. posuvníků pro nastavení prahů, str. 39). V textu této části práce je nevhodně používáno ve dvou významech slovo pixel, čímž se některé formulace (např. „čím menší počet pixelů, tím větší je oblast jednoho pixelu na obrazovce“; nebo „čím více pixelů padne do jednoho pixelu, tím tmavší je jeho barva“) jeví jako obtížně pochopitelné. U výstupů eyetrackeru v podobě barevné modulace chybí informace o škále použitých barev. Jedinou dostupnou informací je nedostatečné tvrzení: „čím více je pixel červený, tím více (déle) se na něj uživatel díval“. Navržená metoda testování přesnosti vykazuje rovněž jisté nedostatky – nejsem si zcela jistý, zda jde srovnávat jednotlivé experimenty v tabulkách 4.6 a 4.7 mezi sebou, protože velikost oblasti, ze které se vyhodnocuje je pokaždé rozdílná. Stejně tak oponuji tvrzení, že výsledky animačního terče jsou lepší než u náhodného terče (str. 61 dole). Toto tvrzení není podloženo statistikou a z uvedených hodnot je zřejmé, že rozdíly nebudou statisticky významné. Testování proběhlo celkem pro tři metody zpracování dat, dvě různé metody testovací sekvence a dvě metody fixace hlavy. Práce je dále doplněna zobrazením „heat map“ a základní analýzou pohledu uživatele webové stránky a řidiče automobilu. Po formální stránce práce vykazuje nedostatky. Vytýkám především několik hrubek a nesouvislých souvětí. Obrázky v teoretické části práce jsou atypicky sázeny vedle sebe. Práce odkazuje na 53 literárních položek, nicméně je citováno velké množství závěrečných prací z českých i zahraničních univerzit. Na práci kladně oceňuji její rozsah a úplnost představeného řešení. V případě testování algoritmu bych ocenil využití více testovacích subjektů a statistické vyhodnocení. V práci také postrádám popis samotné akvizice dat. Vzhledem k uvedeným nedostatkům práci doporučuji k obhajobě a hodnotím známkou dobře (C – 72 bodů).

Navrhovaná známka: C

Body: 72

Otázky

Jak proběhla akvizice testovacích dat? Byl testován vliv vzdálenosti a osvětlení?
Testovala jste výslednou implementaci eye trackeru i na jiných subjektech?
Na jakém principu funguje použitý Dlib detektor?