ŠMIDA, M. Klasifikace typů stran dokumentu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Student rozšířil poskytnutý dataset a navrhl metodu pro extrakci klíčových slov z textu stran dokumentu. Výsledkem práce jsou funkční systémy pro klasifikaci stran, jak na základě obsahu jednotlivé strany, tak i s využitím textové informace a kontextu sousedních stran.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Informace k zadání | Cílem práce bylo vytvořit systém strojového učení pro klasifikaci typů stran. Zadání považuji za mírně obtížnější – student musel porozumět systému strojového učení CLIP, upravit jej a následně jej aplikovat nestandardním způsobem na nový dataset. Výsledkem jsou jednak základní klasifikační systémy založené na architektuře ViT, pracující pouze s obrazovými daty, a dále systémy využívající model CLIP, které kombinují obrazovou a textovou informaci. Výsledné systémy i experimentální měření budou dále využity v rámci projektu Smart Digilinka. | ||
| Práce s literaturou | Student nastudoval relevantní literaturu. | ||
| Aktivita během řešení, konzultace, komunikace | Student pracoval spíše samostatně, řešení konzultoval několikrát za semestr. | ||
| Aktivita při dokončování | Práce byla dokončena na čas a konzultována byla její téměř finální podoba. | ||
| Publikační činnost, ocenění |
Práce rozšiřuje existující modely založených na transformerech (konkrétně model CLIP) o využití další modality, konkrétně extrahovaného textu ze stránky pomocí OCR a jejich dalšího zpracování. Jedná se o inovativní práci přinášející originální nové poznatky. Autor správně řeší celou řadu problémů, od nevyváženosti dat jedntolivých tříd v datasetu, přes vlastní postup extrakce textu a rozšíření o kontext sousedních stran, až po vlastní rozšíření modelu CLIP. Správné řešení vyžaduje dobré pochopení této netriviální problematiky. Výsledkem tak je nejen nový multimodální model, ale i nový kvalitní dataset. Jedná se o náročnou problematiku v oblasti strojového učení, která je zvládnuta vynikajícím způsobem, výrazně nad rámec běžných bakalářských prací.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Náročnost zadání | Obtížnost záleží na výběru použitích klasifikačních technik. Autor svoji práci řešení s využitím pokročilých statistických modelů jako jsou ViT a CLIP, které jsou teoreticky i prakticky obtížné a výrazně na rámec běžného bakalářského studia. | ||
| Rozsah splnění požadavků zadání | |||
| Rozsah technické zprávy | |||
| Prezentační úroveň technické zprávy | 90 | Text je stručný, jasný a věcný, logicky strukturovaný, vyvážený, pečlivě zpracovaný a má vynikající odbornou úroveň. Jedná se ale o obtížnou problematiku a nebylo by na škodu ještě některé pojmy a postupy více vysvětlit. Při zmínkách ohledně nároků na výpočetní prostředky u ViT ve srovnání s klasickou CNN je nutné lépe specifikovat podmínky. Bez toho mohou být informace zavádějící či protichůdné ("[ViT] potřeboval podstatně méně výpočetních zdrojů na trénování [než CNN]" na str. 10, oproti "vision transformery potřebují trénovat na rozsáhlých datasetech" na str. 11). V návrhu (kap. 3.4) není vysvětleno, jak jsou vybrána klíčová slova pro analyzovanou stránku. Tento popis je až dále, ale v kap. 3.4 toto není zřejmé a bylo by dobré na kap. 3.5 odkazovat. Chybí popis hodnot, které jsou v grafech s průběhem učení. Text má ale celkově nadstandardní odbornou úroveň a kvalitu. | |
| Formální úprava technické zprávy | 80 | Text má velmi dobrou formální úroveň. Přesto pár drobností lze doporučit do budoucna ke zlepšení. Odkazy v textu neobsahují typ odkazu (obrázek, kapitola, rovnice), ale pouze číslo, což je nejednoznačné a matoucí. Řada obrázků není v textu odkazována vůbec. U některých rovnic, např. 2.2, 2.3, 2.5, chybí definice a popis parametrů. Bylo by také dobré udržet názvy parametrů mezi rovnicemi (např. 2.6 a 2.7). Obr 2.1 je nevhodně v rastrovém formátu, měl by být vektorový. Text obsahuje občas překlep nebo chybu. Některé anglické termíny by bylo vhodné v textu formátovat např. kurzívou. | |
| Práce s literaturou | 100 | Autor čerpá z rozsáhlejšího seznamu odborných aktuálních článků. Z textu a celého řešení je patrné, že problematice dobře rozumí. Autorské myšlenky a postupy jsou dobře odděleny od převzatých postupů. | |
| Realizační výstup | 90 | Autor na základě pečlivého studia navrhl a realizoval vlastní adaptaci modelu CLIP. K realizaci správně používá relevantní nástroje, knihovny a existující modely. Zároveň, na základě kombinace existující datové sady a dalších zdrojů navrhl a pro danou úlohy vytvořil vlastní datovou sadu, která je rozsáhlá a velmi kvalitní. Experimenty byly provedeny velmi pečlivě a logicky, od referenčního modelu (ViT), přes základní model CLIP, až po vlastní adaptaci modelu CLIP. Zdrojové soubory mají logickou strukturu a hlavičky. Zdrojové kódy by bylo vhodné mnohem lépe a intenzivněji komentovat. Za nevhodné lze považovat spoluautorství vedoucího u většiny výsledných souborů. Je naprosto nevhodné do odevzdaného archivu svého řešení přiložit externí knihovnu, která má téměř 10GB! | |
| Využitelnost výsledků | Práce navrhuje úpravu modelu CLIP pro automatickou klasifikaci stránek digitalizovaných dokumentů, přináši v této oblasti nové poznatky a má publikační potenciál. Výsledkem je i kvalitní nová datová sada. |
eVSKP id 164607