KUBIČKA, M. Odhad orientace kamery z obrazu pomocí metod strojového učení [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Student se musel vypořádat se složitým výzkumným tématem a různými technickými obtížemi, např. vysoká paměťová náročnost sférických konvolučních sítí pro daný problém vyžadovala nasazení kódu na superpočítači Lumi. V rámci práce student vytvořil nové datové sady a prozkoumal možnosti a omezení sférických konvolučních sítí. Provedení a vyhodnocení experimentů by mohlo být důkladnější. Čitelnost a srozumitelnost textové část práce by bylo možné také vylepšit. Celkově považuji práci Martina Kubičky za průměrně kvalitní.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Zadání práce považuji za náročnější, jedná se o aktuální výzkumný problém počítačového vidění. Práce navazuje na předchozí výzkumné aktivity skupiny CPhoto@FIT. V daném problému je nesnadné se vůbec zorientovat, jeho řešení pak vyžaduje jak nadstandardní kreativitu, tak pokročilé technické znalosti. | ||
Práce s literaturou | Student pracoval z velké části s literaturou dodanou vedoucím práce, některé zdroje si pak dohledal sám. Z velké části se jedná o poměrně nové vědecké články. | ||
Aktivita během řešení, konzultace, komunikace | V prvním semestru byla aktivita studenta nízká, ve druhém semestru se zvýšila. Student pravidelně docházel na schůzky, dodržoval dohodnuté termíny a hlášení o postupu prací. | ||
Aktivita při dokončování | Práce byla dokončena v mírném předstihu a její definitivní obsah byl konzultován s vedoucím práce. | ||
Publikační činnost, ocenění | Výsledky práce byly prezentovány na studentské konferenci EXCEL@FIT. |
Práce zkoumá problém odhadu orientace kamery v přírodních prostředích. V technické zprávě je nejdříve představen problém a aktuální řešení, a následně je představen návrh a implementace vlastního řešení na základě sférických konvolučních sítí. Výsledkem práce jsou dva datasety, tři predikční modely a vyhodnocení jejich vhodnosti pro odhad orientace kamery. Mezi hlavní nedostatky patří nízká srozumitelnost práce a nedostatečný rozsah kapitoly s experimenty a vyhodnocením. Aktuálně není jasné jak přesný je navržený model ve srovnání s předchozími řešeními. V textu se také vyskytují místa u kterých není jasný zdroj informací, což vede k otázkám zda daný závěr (např. "CNNs are more efficient") je validní. Přesto byl student v rámci obhajoby schopný text osvětlit a nejasná místa upřesnit. S přihlédnutím k náročnosti zadání navrhuji hodnotit práci stupněm Dobře.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Úkol odhadu orientace kamery je aktuálně otevřeným problémem v oboru zpracování obrazu. Problém je dále komplikován ve fotografiích z přírodního prostředí, na kterých byly výsledky práce testovány. V tomto ohledu považuji zadání práce za obtížné až značně obtížné. | ||
Rozsah splnění požadavků zadání | Zadání práce je splněno ve všech bodech. | ||
Rozsah technické zprávy | Rozsah práce je v požadovaném rozmezí. Text obsahuje téměř vše nutné k pochopení cílů a výsledků práce. | ||
Prezentační úroveň technické zprávy | 60 | Logická struktura technické zprávy je vhodně rozdělena do kapitol, které postupně představují řešený problém, návrh řešení a vlastní řešení. Srozumitelnost textu je problematická. Například, popis problému odhadu orientace kamery v kapitole 4 nepopisuje jasně jaké jsou vstupy a výstupy metody a proč je nutné vysoké rozlišení. Místy jsou použity zkratky bez předchozí definice - např. CNN. Některé části textu nejsou pro problém podstatné - např. sekce 3.3.1 o sémantické segmentaci. U popisu datasetů není zmíněno zda a jakým způsobem jsou rozděleny trénovací a validační / testovací části. Z textu také není jednoznačně pochopitelné, jakým způsobem jsou některé části řešení realizovány. Diagramy a obsah textu v části 5.3 nesedí s odevzdanými zdrojovými kódy - např. na Obr. 5.7 není znázorněno, že jde o siamskou architekturu a jaké jsou vstupy a výstupy. Kapitola 6 (Testing and Experiments) neobsahuje dostatečné množství experimentálních výsledků na jejichž základě by bylo možné zhodnotit jak dobře navržené metody pracují. | |
Formální úprava technické zprávy | 73 | Z typografického hlediska je technická zpráva zpracována průměrně. Obsahuje menší množství gramatických a stylistických chyb. Místy jsou souvětí velmi dlouhá a složitá, což vede ke ztrátě kontextu. Text obsahuje také relativně neformální a hodnotící věty typu "it might seems weird". | |
Práce s literaturou | 72 | Zvolené literární prameny obsahují vysoké množství kvalitních článků a relativně aktuálních vědeckých prací. Ostatní zdroje mají podobu online materiálů a jsou vždy citovány včetně data přístupu. Citační etika je v převážné části textu v pořádku. Problémem jsou části textu, ve kterých není jasné zda jde o závěry autora práce nebo o převzatou informaci. Obzvláště problematické jsou některé závěry, u kterých by konvence vyžadovala buď a) argument proč má autor tento názor, b) výsledky experimentů které by výrok podpořily, nebo c) citaci článku ze kterého byl výrok přejat. Například jde o věty typu: "training on the MNIST dataset showed that this type of network can achieve high accuracy", "Convolutional neural networks ... are more efficient in many ways and can be deeper", "there are Vision transformers that efficiently process high-resolution inputs". | |
Realizační výstup | 77 | Realizační výstupy práce jsou trojího typu. Práce představuje tři modely pro odhad orientace kamery využívající sférické konvoluce. Dále uvádí dva nové datasety se sférickými panoramaty, které lze využít na trénování. Součástí jsou také skripty, které umožňují generovat další podobné datasety. Posledním přínosem jsou experimenty s modely a srovnání jejich výsledků. Hlavní problém přínosů je v nedostatečné hloubce experimentů. Chybí srovnání s existujícími modely, které by ukázalo zda je využití sférických konvolucí přínosné. Zároveň chybí ablační studie a proto nejsou jisté výsledky jednotlivých modifikací. | |
Využitelnost výsledků | Výsledky práce lze využít jako základ pro další výzkum v oblasti odhadu orientace kamery. Skripty pro generování datasetů, jakož i datasety samotné, jsou také významným přínosem. |
eVSKP id 154459