ŠMIDA, M. Klasifikace typů stran dokumentu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Posudky

Posudek vedoucího

Kohút, Jan

Student rozšířil poskytnutý dataset a navrhl metodu pro extrakci klíčových slov z textu stran dokumentu. Výsledkem práce jsou funkční systémy pro klasifikaci stran, jak na základě obsahu jednotlivé strany, tak i s využitím textové informace a kontextu sousedních stran.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Cílem práce bylo vytvořit systém strojového učení pro klasifikaci typů stran. Zadání považuji za mírně obtížnější – student musel porozumět systému strojového učení CLIP, upravit jej a následně jej aplikovat nestandardním způsobem na nový dataset. Výsledkem jsou jednak základní klasifikační systémy založené na architektuře ViT, pracující pouze s obrazovými daty, a dále systémy využívající model CLIP, které kombinují obrazovou a textovou informaci. Výsledné systémy i experimentální měření budou dále využity v rámci projektu Smart Digilinka.
Práce s literaturou Student nastudoval relevantní literaturu.
Aktivita během řešení, konzultace, komunikace Student pracoval spíše samostatně, řešení konzultoval několikrát za semestr.
Aktivita při dokončování Práce byla dokončena na čas a konzultována byla její téměř finální podoba.
Publikační činnost, ocenění
Navrhovaná známka
B
Body
85

Posudek oponenta

Beran, Vítězslav

Práce rozšiřuje existující modely založených na transformerech (konkrétně model CLIP) o využití další modality, konkrétně extrahovaného textu ze stránky pomocí OCR a jejich dalšího zpracování. Jedná se o inovativní práci přinášející originální nové poznatky. Autor správně řeší celou řadu problémů, od nevyváženosti dat jedntolivých tříd v datasetu, přes vlastní postup extrakce textu a rozšíření o kontext sousedních stran, až po vlastní rozšíření modelu CLIP. Správné řešení vyžaduje dobré pochopení této netriviální problematiky. Výsledkem tak je nejen nový multimodální model, ale i nový kvalitní dataset. Jedná se o náročnou problematiku v oblasti strojového učení, která je zvládnuta vynikajícím způsobem, výrazně nad rámec běžných bakalářských prací.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Obtížnost záleží na výběru použitích klasifikačních technik. Autor svoji práci řešení s využitím pokročilých statistických modelů jako jsou ViT a CLIP, které jsou teoreticky i prakticky obtížné a výrazně na rámec běžného bakalářského studia.
Rozsah splnění požadavků zadání
Rozsah technické zprávy
Prezentační úroveň technické zprávy 90 Text je stručný, jasný a věcný, logicky strukturovaný, vyvážený, pečlivě zpracovaný a má vynikající odbornou úroveň. Jedná se ale o obtížnou problematiku a nebylo by na škodu ještě některé pojmy a postupy více vysvětlit. Při zmínkách ohledně nároků na výpočetní prostředky u ViT ve srovnání s klasickou CNN je nutné lépe specifikovat podmínky. Bez toho mohou být informace zavádějící či protichůdné ("[ViT] potřeboval podstatně méně výpočetních zdrojů na trénování [než CNN]" na str. 10, oproti "vision transformery potřebují trénovat na rozsáhlých datasetech" na str. 11). V návrhu (kap. 3.4) není vysvětleno, jak jsou vybrána klíčová slova pro analyzovanou stránku. Tento popis je až dále, ale v kap. 3.4 toto není zřejmé a bylo by dobré na kap. 3.5 odkazovat. Chybí popis hodnot, které jsou v grafech s průběhem učení. Text má ale celkově nadstandardní odbornou úroveň a kvalitu.
Formální úprava technické zprávy 80 Text má velmi dobrou formální úroveň. Přesto pár drobností lze doporučit do budoucna ke zlepšení. Odkazy v textu neobsahují typ odkazu (obrázek, kapitola, rovnice), ale pouze číslo, což je nejednoznačné a matoucí. Řada obrázků není v textu odkazována vůbec. U některých rovnic, např. 2.2, 2.3, 2.5, chybí definice a popis parametrů. Bylo by také dobré udržet názvy parametrů mezi rovnicemi (např. 2.6 a 2.7). Obr 2.1 je nevhodně v rastrovém formátu, měl by být vektorový. Text obsahuje občas překlep nebo chybu. Některé anglické termíny by bylo vhodné v textu formátovat např. kurzívou.
Práce s literaturou 100 Autor čerpá z rozsáhlejšího seznamu odborných aktuálních článků. Z textu a celého řešení je patrné, že problematice dobře rozumí. Autorské myšlenky a postupy jsou dobře odděleny od převzatých postupů.
Realizační výstup 90 Autor na základě pečlivého studia navrhl a realizoval vlastní adaptaci modelu CLIP. K realizaci správně používá relevantní nástroje, knihovny a existující modely. Zároveň, na základě kombinace existující datové sady a dalších zdrojů navrhl a  pro danou úlohy vytvořil vlastní datovou sadu, která je rozsáhlá a velmi kvalitní. Experimenty byly provedeny velmi pečlivě a logicky, od referenčního modelu (ViT), přes základní model CLIP, až po vlastní adaptaci modelu CLIP.  Zdrojové soubory mají logickou strukturu a hlavičky. Zdrojové kódy by bylo vhodné mnohem lépe a intenzivněji komentovat. Za nevhodné lze považovat spoluautorství vedoucího u většiny výsledných souborů. Je naprosto nevhodné do odevzdaného archivu svého řešení přiložit externí knihovnu, která má téměř 10GB!
Využitelnost výsledků Práce navrhuje úpravu modelu CLIP pro automatickou klasifikaci stránek digitalizovaných dokumentů, přináši v této oblasti nové poznatky a má publikační potenciál. Výsledkem je i kvalitní nová datová sada.
Navrhovaná známka
A
Body
95

Otázky

eVSKP id 164607