DOBIŠ, L. Komprese difuzních modelů pro generování obrazu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Student pracoval na zajímavém tématu podle svého výběru a projevoval značné nadšení. Jeho aktivita ale byla spíše nárazová, konzultoval spíše méně a práci dokončoval na poslední chvíli. Výsledné experimenty poskytují zajímavé informace, ale výsledky měly být ověřeny na velkém předtrénovaném modelu.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Tato práce nenavazuje přímo na výzkum naší skupiny. Jedná se o poměrně náročné téma jak novostí, tak výpočetní náročností experimentů. Student získal nové poznatky, ale podle původního plánu měly být tyto poznatky ověřeny na velkém modelu. | ||
Práce s literaturou | Student si samostatně vyhledal potřebné zdroje, nastudoval je a dokázal je vhodně využít. | ||
Aktivita během řešení, konzultace, komunikace | Student se o téma velmi zajímal, ale konzultoval svou práci velmi málo. Dovolil bych si tvrdit, že jeho aktivita byla spíše nárazová a celkově mohla být vyšší. Práce nepostupovala tak rychle, jak jsem předpokládal na základě počátečního nadšení studenta. | ||
Aktivita při dokončování | Student práci dokončoval na poslední chvíli a konečnou podobu textové zprávy nekonzultoval. | ||
Publikační činnost, ocenění |
Technická zpráva nedosahuje příliš vysoké prezentační ani formální úrovně. Nachází se zde nedostatky týkající se obrázků, rovnic a tabulek. Text obsahuje množství jazykových chyb, není příliš dobře strukturovaný a některé části působí chaoticky. Podle obrázků v technické zprávě nejsou výstupy natrénovaných základních modelů příliš kvalitní, což má vliv také na vyhodnocení komprimovaných modelů a interpretaci výsledků. Chybí porovnání s obdobnými modely.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Jedná se o obtížnější zadání, které pracuje se state-of-the-art neuronovými sítěmi pro generování obrazu. Ke kompresi těchto sítí se využívají také kvantizační metody, které jsou v současné době intenzivně zkoumány například v kontextu velkých jazykových modelů. | ||
Rozsah splnění požadavků zadání | |||
Rozsah technické zprávy | Rozsahem je technická zpráva těsně nad požadovaným minimem. | ||
Prezentační úroveň technické zprávy | 60 | Technická zpráva je rozdělena na vhodné kapitoly. V rámci kapitol je však text poměrně hůře pochopitelný, protože se zde téměř nevyskytuje nějaká struktura, která by složitější problémy rozdělovala na menší podčásti a čtenář tak měl dostatečný kontext. Občas popis přeskakuje mezi různými přístupy a text tak působí chaoticky. Popis difuzních modelů by také mohl být detailnější a lépe vysvětlující. | |
Formální úprava technické zprávy | 50 | Veškeré obrázky v technické zprávě jsou rastrové. Toto by bylo pochopitelné pro ukázky datasetů, vygenerovaných výstupů apod., ale jako rastrové obrázky jsou zde také různé schémata a grafy, které by rozhodně měly být vektorové. Jako rastrový obrázek je zde také vložen pseudokód dvou algoritmů. Častokrát je více rovnic umístěno na jeden řádek, čímž nejspíše byla zamýšlena úspora místa, ale za cenu zhoršení čitelnosti a orientace. Rovnice taktéž nepůsobí jako součást textu, ale jako samostatné prvky, na které je v rámci textu odkazováno a při čtení je tak potřeba z textu přeskočit na rovnici a následně hledat zpátky místo, kde pokračuje původní text. Tabulky by si dle mého názoru zasloužily lepší úpravu. Tabulka 5.3 přetéká mimo textovou oblast. Technická zpráva je psána anglicky. V textu se střídají pasáže, které jsou poměrně dobře čitelné, a pasáže, které jsou velmi špatně čitelné, s množstvím chyb (nejčastěji špatný slovosled, chybějící členy). | |
Práce s literaturou | 75 | Práce cituje celkem 54 relevantních zdrojů, z nichž 2 jsou webové stránky. Hodně zdrojů odkazuje na články z repozitáře arXiv, byť by určitě některé z nich mohly odkazovat na stejný článek publikovaný na konferenci nebo v časopise. | |
Realizační výstup | 75 | Odevzdané zdrojové kódy jsou rozumně komentované a dá se v nich dobře zorientovat. Vytknul bych množství napevno definovaných konstant (např. názvů souborů) a globálních proměnných namísto využití parametrů příkazové řádky. V technické zprávě v části týkající se vyhodnocení chybí porovnání s nějakým existujícím modelem trénovaným na stejných datech. Přímo se nabízí porovnání s modelem ze článku "Denoising Diffusion Probabilistic Models", ze kterého práce vychází. Podle vizuálních výstupů to vypadá, že natrénovaný model negeneruje příliš kvalitní obrázky a tudíž i výsledky komprese nemají příliš velkou vypovídající hodnotu. | |
Využitelnost výsledků | Jedná se o práci, která měla za cíl přinést nové poznatky o možnostech komprese difuzních modelů. Využitelnost naměřených výsledků je nízká, především z důvodu, že natrénové základní modely nedosahují příliš dobré kvality. |
eVSKP id 148753