Posudky závěrečné kvalifikační práce

Posudek vedoucího

Honec, Peter

Diplomová práce Bc. Wolného řeší problematiku automatické detekce zapnutých bezpečnostních pásů řidiče a spolujezdce, případně přítomnost spolujezdce. Oba parametry dnes mohou být využívány v dopravních aplikacích, tedy při monitorování a případném pokutování nezapnutých bezpečnostních pásů nebo při monitorování vyhrazené jízdy v pruzích. Téma práce je středně náročné a spíše praktického charakteru. Diplomant pracoval v průběhu obou semestrů aktivně a samostatně. Pro řešení úlohy použil úspěšně předtrénovaný model YOLO. Tomu však předcházela precizní a zajisté zdlouhavá příprava datasetu, který se (takto nachystaný) zajisté využije i pro jiné úlohy. Výsledná úspěšnost detekce zapnutého pásu pak dosahovala až překvapivých hodnot. V práci bych uvítal více příkladů snímků, na kterých byl či nebyl nalezen pás. V závěru pak byla dle požadavků vytvořená DLL pro snadnější integraci metody do systémů. Diplomant splnil všechny body zadání, práci doporučuji k obhajobě.

Navrhovaná známka: A

Body: 90

Posudek oponenta

Janáková, Ilona

Pan Wolny zpracoval diplomovou práci na téma detekce přestupkového chování řidičů pomocí zpracování obrazu z dopravních kamer, konkrétně detekce zapnutých bezpečnostních pásů. Celý odevzdaný dokument má se všemi náležitostmi 59 stran (47 normostran úvod - závěr). Rozdělen je vedle úvodu a závěru na dvě hlavní kapitoly. První je čistě teoretická (15 stran) a zaměřuje se na obecný postup zpracování obrazu, a především na strojové učení, neuronové sítě a konkrétní modely pro detekci objektů – variantám R-CNN a v práci použitému YOLO. V rámci teorie mi chybí rešerše odborných publikací, případně průzkum komerčních řešení, zaměřených přímo na řešený problém. Při návrhu je zmíněn pouze jeden konkrétnější zdroj ([16]), ten ale řeší problematiku kamerou uvnitř vozidla. Seznam literatury (21 zdrojů) ale odpovídá obsahu a práce s literaturou je korektní až na odkazování na zdroj u některých obrázku (obr. 7, 9 a 20 - 22). Druhá kapitola (29 stran) se věnuje již samotnému praktickému návrhu po jednotlivých logických krocích. Prvním je po zhodnocení komplexnosti úlohy volba samotného přístupu. Vzhledem k variabilitě snímků – světelné podmínky, poloha řidiče ve vozidle, oblečení, vlasy a mnoho jiného, hodnotím volbu postupu doučení předtrénovaného YOLO modelu jako nejvhodnější. Dále je popsána příprava datasetu a anotace. Tento krok je pro trénování hlubokých modelů klíčový, ale zároveň časově velmi náročný, proto se jej student pokusil poloautomatizovat učením několika generací jednodušších modelů a využitím jejich predikcí. Z hlediska rozdělení datasetu v dalším kroku oceňuji, že vedle náhodného dělení student pozorně a náročněji sestavil i dataset rozdělený sekvenčně. Vzhledem k povaze snímků, kdy je každé vozidlo zachyceno v různých polohách i pětkrát, by zařazení téměř identických snímků do trénovací i testovací části opravdu mohlo vést ke zkreslení, nadhodnocení úspěšnosti modelu. Samotné trénování probíhalo v mnoha variantách velikostí modelů, nastavených hyperparametrů i použité augmentace, což bylo jistě časově velmi náročné. Vytvořeno bylo přibližně 25 různých modelů porovnaných na základě standardních konzistentních metrik. Vliv jednotlivých parametrů byl slovně zhodnocen. Výsledky jsou pak v dokumentu prezentovány na nejúspěšnějším modelu. Dosažené metriky na sekvenčně rozděleném datasetu (precision 0.831, recall 0.845, mAP50 0.874) považuji za až nad očekávání dobré. V rámci vyhodnocení mohla být prezentována alespoň malá ukázka predikcí, případně snímků, kde algoritmus selhal. Nemnoho reálných snímků, které by daly představu o složitosti problému, je uvedeno jen v rámci anotace a augmentace. Součástí práce byla i integrace do DLL. V závěru jsou kriticky zhodnoceny limity a jsou navrženy možné způsoby zlepšení. Struktura práce je logická a přehledná. Vyskytuje se jen několik drobných překlepů či jazykových nepřesností, ale celkově je jazyková úroveň vysoká. Po formální a grafické stránce bych vytkla jen nesoulad velikostí některých obrázků (např. malý nečitelný Obrázek 17, velká matice záměn, ale s velmi drobným textem na obr. 25, oproti velkým obrázkům např. 16 a 19) a drobné chyby při formátování. Na přiloženém médiu jsou vedle textu práce zdrojové kódy v Pythonu, vytvořené DLL, připravené anotované a roztříděné datasety i výsledky běhu programu. Celkově uznávám, že student musel provést řadu časově náročných kroků, provedl důkladnou přípravu, mnoho experimentů s poloautomatickou anotací i se samotným učením, integroval model do DLL, ale nasazení YOLO modelu je již dnes relativně jednoduché, dobře zdokumentované, proto mohla být práce posunuta ještě o něco dál např. detekcí telefonů (jak je uvedeno i v abstraktu) pokusem o nalezení dalších vhodných snímků, augmentací; detekcí vozidel (model YOLO je naučen pro rozpoznání osobních a nákladních vozidel, autobusů i motorek), rozpoznáním řidiče-spolujezdce, vyhodnocením v rámci sekvence, ověřením na nezávislých datech, např. z jiné lokality apod. Na druhou stranu všechny body zadání byly splněny. Bylo dosaženo velmi slibné úspěšnosti detekce, výsledky jsou i díky vytvořenému DLL přímo aplikovatelné v systémech monitorování dopravy. Student prokázal inženýrské schopnosti, proto práci doporučuji k obhajobě s hodnocením C (78 b).

Navrhovaná známka: C

Body: 78

Otázky

- Prováděl jste literární rešerši na konkrétní řešený problém? Opravdu neexistují články/studie/řešení, které by se detekci zapnutých pásů přímo věnovaly nebo je nápad zcela nový?
- Jak dopadly výsledky pro dataset RANDOM? Jsou podle očekávání o tolik lepší?
- Pomohla by úspěšnosti predikce, případně vyhodnocení sekvencí, detekce vozidel, na kterou je předtrénovaný model YOLO naučen?
- Zkoušel jste otestovat model na úplně nezávislých datech, např. z jiných lokalit? Jak by si podle Vás vedl?