ZÁRECKÝ, M. Semi-supervised učení pro rozpoznávání textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Posudky

Posudek vedoucího

Kišš, Martin

Student ve své práci experimentálně ověřil možnosti semi-supervised učení Transformer modelů pro rozpoznávání textu středověkých manuskriptů. Student si obstaral rozsáhlou neanotovanou datovou sadu pro experimenty, vyhodnotil filtrovací metriky a natrénováním modelů zjišťoval možnosti semi-supervised učení. Vyhodnocení filtrovacích metrik přináší dle mého názoru užitečné výsledky, avšak samotné trénování s neanotovanými daty není příliš konzistentní. Především z časových důvodů nebylo možné vyzkoušet více různých strategií pro trénování modelů.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání V rámci bakalářské práce se jedná o náročnější zadání, které využívá state-of-the-art modely pro rozpoznávání textu na bázi modelu Transformer. Práce měla za cíl experimentálně ověřit možnosti těchto modelů při semi-supervised trénování s anotovanými i neanotovanými řádky historických manuskriptů, konkrétně s použitím metody pseudo-labeling a filtrováním řádků s nejistým přepisem. Student si v rámci práce sehnal a zpracoval velkou neanotovanou datovou sadu středověkých manuskriptů, kterou využil při trénování modelů. V rámci experimentů vyhodnotil několik metrik pro filtrování strojových přepisů. Výsledky semi-supervised trénování pak nejsou příliš konzistentní a naměřená zlepšení modelů jsou spíše zanedbatelná. 
Práce s literaturou Student byl při hledání literatury přiměřeně aktivní.
Aktivita během řešení, konzultace, komunikace V zimním semestru byla četnost konzultací průměrná, avšak aktivita při samotném řešení práce byla spíše nižší. V letním semestru byla četnost konzultací nadprůměrná a aktivita znatelně vyšší. Student byl při konzultacích aktivní a byl na ně dostatečně připraven.
Aktivita při dokončování Práce byla dokončována v očekávané době. Finální verze práce byla konzultována.
Publikační činnost, ocenění
Navrhovaná známka
B
Body
85

Posudek oponenta

Hradiš, Michal

Student pracoval na zajímavém, nestandardním a lehce náročnějším tématu. Dokázal připravit datové sady a vyhodnotit smysluplné experimenty. Text práce by měl být ucelenější a neuvádět informace o existujících metodách, které jinak nejsou využity. Problematické je, že práce přesně nespecifikuje autorství uvedených metrik pro filtraci.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Práce řeší náročnější a lehce nestandardní téma semi-supervised učení.
Rozsah splnění požadavků zadání
Rozsah technické zprávy
Prezentační úroveň technické zprávy 70 Text je pro čtenáře pochopitelný, ale některé části 2. kapitoly nejsou v textu dále využity. Následující text téměř nevyužívá popisů neuronových sítí pro přepis textu (hlavně rekurentních sítí trénovaných trénovaných pomocí CTC). Stejně tak Kapitola 3.1 a 3.3 popisují metody učení, které pak v práci nejsou vůbec využity. Trochu mi v práci chybí základní popis technické realizace. V popisech modelů a metod jsou občas nepřesnosti. Bylo by také vhodné přesně popsat neuronové sítě použité v experimentech.
Formální úprava technické zprávy 82 Práce je kvalitní po jazykové i typografické tránce. Oceňuji vektorové grafy a schémata. Oceňuji také dobře vysázené rovnice, jen za nimi chybí interpunkce.
Práce s literaturou 71 Práce se odkazuje na 25 převážně odborných článků, které jsou k tématu relevantní a v práci jsou vhodně využity. Zdroje dobře pokrývají řešené téma, ale některé jsou využity v práci jen v popisech daných metod, ale už nemají přímý vztah k prezentovanému řešení (jak je uvedeno v hodnocení prezentační úrovně). V textu se sice občas objevují nepřesnosti, ale není to příliš vážné.  Nevhodné je uvedení filtrovacích metrik, u kterých není jasné, které jsou převzaté a které byly navrženy autorem. Z tohoto důvodu o stupeň snižuji hodnocení této části.
Realizační výstup 79 Student vyhodnotil zajímavé experimenty. Bohužel výsledky neukazují dostatečně významný přínos a nepotvrdilo se tak zatím, že by daný přístup mohl být perspektivní. Vzhledem k množství odevzdaných souborů by mohlo být v readme souboru přesně vypsáno, které z nich autor upravoval.
Využitelnost výsledků Student provedl nové experimenty, které poskytují užitečné informace. Jako vždy zůstávají otázky, jak moc jsou výsledky důvěryhodné, ale ty jsou vždy.
Navrhovaná známka
C
Body
78

Otázky

eVSKP id 164650