KAJAN, M. Rozšířená realita v průmyslové výrobě a údržbě [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2024.
Diplomant zpracoval svoji diplomovou práci na velmi dobré úrovni, kdy téma není jednoduché a není dosud plně zpracované ani v odborné literatuře. Současně student pracoval aktivně, kdy sám vyhledával metody detekce významných bodů objektů i přístupy pro rozpoznání částí objektů ve scéně, vyvolával konzultace a průběžně prezentoval výsledky. Částečně se diplomantovi pouze nepodařilo optimálně rozvrhnout čas na jednotlivé úkoly, byť i tato skutečnost je částečně způsobena zpracováváním dosud zcela neprobádaného tématu. Student svojí prací docílil reálně použitelného výsledku, byť z hlediska výpočetní náročnosti úlohy ne v real-time, kdy algoritmus rozšířené reality navádí operátora ke kompletaci výrobku. Diplomant si nadto nezvolil geometricky triviální a strukturně plochý objekt, ale reálný tvarově a texturně členitý objekt rozložitelný na tři hlavní části. Závěrem lze konstatovat, že zadání bylo splněno a že diplomant při realizaci práce projevil inženýrské schopnosti.
Pan Kajan zpracovával diplomovou práci na téma rozšířené reality, konkrétněji její využití v průmyslu pro instruování operátora při (de)montáži. Předložený dokument má 73 normostran (úvod-závěr) a celkem se všemi přílohami a náležitostmi 96. Je psaný ve slovenštině, proto jazykovou úroveň mohu posoudit hůře, přesto jsem narazila na několik zjevných překlepů a stylistických chyb. Po grafické stránce je práce upravena hezky, formálně splňuje náležitosti diplomové práce. Vytkla bych jen časté zdvojení odkazů na obrázky a ojedinělé modře podbarvené křížové odkazy (např. strana 53). Práce s literaturou je kvalitní. Seznam literatury obsahuje nadstandardních 87 odkazů, většinou vzhledem k důkladnému průzkumu trhu odkazy na jednotlivé produkty a dále na tematické odborné články. Zdroje byly dobře zpracovány, podle výsledků práce i nastudovány, jsou správně citovány a v textu jsou hojně a správně využívány. Text je čtivý, srozumitelný a uspořádán v logickém sledu. Po formulaci problému (kap. 1) následuje průzkum trhu (kap. 2) zařízení pro rozšířenou a virtuální realitu, kdy popsané produkty (5+2) dobře reprezentují spektrum možností moderních zařízení. Součástí je i jejich porovnání - slovně i základních sledovaných parametrů přehledně v tabulce. Ve třetí kapitole jsou popsány metody popisu a rozpoznání objektů – pomocí hran, lokálních příznaků a založených na CNN. Tyto metody řeší problém převedením na 2D úlohu, i když s použitím vybrané stereo kamery by bylo možné zvážit i vhodný 3D model. Obzvláště lokální příznaky, které byly nakonec použity, jsou popsány velmi důkladně (10 stran), přesto chybí asi nejčastěji využívaný SURF. Na základě teoretické části byl ve čtvrté kapitole proveden výběr zařízení (kombinace VR brýlí a stereo kamery), byla zvolena a definována demonstrační úloha a také vybrána metoda rozpoznání objektu včetně konkrétního detektoru/deskriptoru BRISK. Všechny jednotlivé kroky volby byly řádně zdůvodněny, a i díky tomu je možné zvolenou koncepci považovat za správnou, optimální. Pátá kapitola se věnuje výsledné implementaci – tvorbě modelu a jeho reprezentaci, samotné detekci a rozpoznání objektu a výsledné vizualizaci včetně vkládání montážních instrukcí. Je zde popsána i struktura kódu, využité nástroje a propojení s brýlemi, kdy se diplomant mimo jiné musel vzhledem k základnímu předpokladu běhu v reálném čase (resp. s malou latencí) zaobírat vhodnou optimalizací, synchronizací a paralelizací kódu. Řešení považuji za správné. Jen bych zvážila možnost doplnění detekce objektů o nějaké trasování mezi po sobě jdoucími snímky, kterým by se mohl omezit prohledávaný prostor objektů, pohledů, významných bodů (viz jeden z dotazů). Šestá kapitola popisuje experimenty provedené pro odhad latence, přesnosti a robustnosti, jak je předepsáno šestým bodem zadání. Experimenty měly, jak diplomant píše evaluovat samotný algoritmus, proto byly provedeny bez brýlí na statické kameře nad stolem. Postup je správný a ukazuje např. na potřebu paralelního zpracování nebo, že algoritmus je schopen rozpoznat a lokalizovat objekt až do téměř 80 % okluze, ale experimenty měly být podle mě vyhodnoceny/odhadnuty i na vybraném zařízení a nejen konstatováno, že výška latence byla „značná“. Algoritmus by měl být, vzhledem k vybraným metodám, vcelku univerzální. Student také stanovuje jisté omezující podmínky, např. na texturu, ale přeci jen byl „naladěn“ na danou úlohu. Proto si myslím, že by bylo také vhodné ověřit robustnost na jiné demonstrační/testovací úloze (jiné objekty – velikost, složitost textury, podobnost pohledů atd.). Na přiloženém médiu jsou nepříliš komentované zdrojové kódy, které jsou však dobře strukturované a i díky vytvořené dokumentaci srozumitelné. Možná zde (a ne až odkazem na GIT) mohly být také vytvořené modely – obrázky a .json soubory podle struktury na straně 61. Velmi přínosná, pro představu fungování, jsou přiložená videa, předpokládám ze statické kamery nad stolem. Zajímal by mě však i běh na brýlích - princip (dva snímky), kvalita (pohybující se pozorovatel), ale i subjektivní pocit (viz dotaz). Zadání diplomové práce považuji za odborně i časově náročnější, přesto bylo dobře uchopené a zvládnuté. Z mého pohledu byly všechny body zadání splněny a student svými výsledky jistě prokázal inženýrské schopnosti, a proto práci doporučuji k obhajobě s hodnocením A (90 b).
eVSKP id 159975