ROZEK, J. Převod obrazu na zvuk pro nevidomé [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Posudky

Posudek vedoucího

Chlubna, Tomáš

Autor práci prodlužoval o rok a tempo práce bylo lehce kolísavé. Z hlediska konzultací byl autor průměrně aktivní a dosažené výsledky se zdají být taktéž na průměrné úrovni. Základní konzultační požadavky byly splněny. 

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Na práci bylo náročné zvolit vhodné metody pro zvukovou interpretaci obrazu a zajistit dobrou datovou propustnost vzhledem k informačně objemným vstupům jako jsou videa. Zadání práce bylo splněno. Převod obrazových dat na zvuk byl implementován s použitím několika metod. Řešení není triviální ale ani vysoce komplexní.
Práce s literaturou Autor sám vyhledal potřebné zdroje a použil doporučené. V teoretické kapitole textu bylo doporučeno rozebrat více existujících metod.
Aktivita během řešení, konzultace, komunikace Konzultace probíhaly po celý průběh práce, místy však s delšími odmlkami kdy postup práce nebyl pravidelně hlášen z osobních a pracovních důvodů autora. Během konzultací autor prezentoval dosažené výsledky a následně se aktivně snažil zpracovat doporučení pro další postup.
Aktivita při dokončování Práce byla v dostatečném předstihu dokončena a konzultována.
Publikační činnost, ocenění Implementace je veřejně dostupná jako GitHub repositář. Framework je navržen jako testovací aplikace tak, aby byl jednoduše rozšiřitelný o nové převodníky.
Navrhovaná známka
C
Body
79

Posudek oponenta

Čižmarik, Roman

Celkovo navrhujem prácu hodnotiť stupňom F . Za najzásadnejšie problémy považujem nedodržanie minimálneho rozsahu práce, nejasné definovanie cieľa a očakávaných výsledkov práce. Odporúčam, aby študentovi bolo umožnené tieto nedostatky v práci upresniť a povoliť obhajobu v opravnom termíne.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadanie hodnotím ako náročnejšie, študent sa musel oboznámiť s technikami prevodu obrazu na zvuk, krivkami vyplňujúcimi priestor a spektrálnou analýzou signálov.
Rozsah splnění požadavků zadání Zadanie práce je pomerne obsiahle a poskytuje študentovi široké možnosti vypracovania. Avšak v texte je cieľ práce niekoľko krát predefinovaný. V abstrakte sa čitateľ dozvie, že cieľom práce je "navrhnout, implementovat a zhodnotit metody pro optimální konverzi vizuální informace do zvuku", v rozšírenom abstrakte študent uvádza, že "cílem této práce je nahradit zrak sluchem", v kapitole návrhu je ako cieľ práce stanovená GUI aplikácia umožňujúca porovnanie rôznych metód konverzie obrazu na zvuk. Tieto rôznorodé informácie sťažujú posúdenie cieľov práce a ich splnenia. Zadanie však považujem za splnené.
Rozsah technické zprávy Kompletná technická správa obsahuje 29 strán, čo odpovedá približne 35 normostranám. Práca teda nesplňuje minimálne požiadavky na rozsah.
Prezentační úroveň technické zprávy 60 Práca obsahuje celkom 6 kapitol, ktoré na seba logicky nadväzujú. Práca je ťažko čitateľná, obsahuje gramatické chyby a zložité formulácie, ktoré sťažujú pochopiteľnosť textu. Kladne hodnotím spracovanie teoretických základov práce o existujúcich metódach, krivkách vyplňujúcich priestor, metóde K-means a Fourierovej transformácií. Táto časť technickej správy je dobre spracovaná a doplnená názornými obrázkami. Kapitoly návrhu a implementácie popisujú statické a dynamické metódy prevodu obrazu na zvuk. Kapitola návrhu vhodne vysvetľuje potrebu zredukovania množstva prenesenej informácie a rozdiely medzi navrhovanými typmi konverzných metód. Avšak kapitola implementácie za návrhom kvalitatívne zaostáva. V úvode kapitoly sa nachádza popis inštalácie, ktorý patrí buď do prílohy alebo má byť súčasťou odovzdaných zdrojových kódov. Riešenie problému synchronizácie videa a zvuku nie je dostatočne jasne vysvetlené. Popis implementácie kriviek vyplňujúcich priestor úplne chýba. Za vydarenú časť tejto kapitoly považujem riešenie a popis prechodov medzi jednotlivými frekvenciami. Z kapitoly testovania mi nie je jasné, či prebehlo užívateľské testovanie a prípadne aké sú jeho výsledky.
Formální úprava technické zprávy 65 Práca obsahuje gramatické a typografické chyby: obrázky a rovnice ihneď pod nadpisom kapitoly, pseudokód bez použitia príslušného prostredia.
Práce s literaturou 90 Text obsahuje 21 kvalitných a relevantných zdrojov. Frekvencia a použitie citácií je adekvátna.
Realizační výstup 50 Realizačný výstup považujem za podpriemerný. V priložených zdrojových kódoch chýba návod na spustenie. Výsledná aplikácia padá. Z vygenerovaných zvukových signálov som ani po dvoch dňoch testovania nebol schopný rozpoznať žiadnu informáciu o zdrojovom obraze. Vygenerovaný signál bol pre rôzne vstupy vždy veľmi podobný monotónny zvuk. Beriem na vedomie, že študent predpokladá omnoho dlhšie a intenzívnejšie používanie implementovaných metód, aby bol používateľ schopný zvukové signály pochopiť.
Využitelnost výsledků Študent implementoval jednoduchú GUI aplikáciu umožňujúcu prevod videa na zvuk. Dostupné sú 3 techniky prevodu obrazu na zvuk. Realizačný výstup nepokladám za použiteľný v praxi. Pri prevode dochádza k pádom a zasekávaniu. Informačná hodnota vygenerovaného zvukového signálu je diskutabilná. 
Navrhovaná známka
F
Body
49

Otázky

eVSKP id 161151