ZÁRECKÝ, M. Semi-supervised učení pro rozpoznávání textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Student ve své práci experimentálně ověřil možnosti semi-supervised učení Transformer modelů pro rozpoznávání textu středověkých manuskriptů. Student si obstaral rozsáhlou neanotovanou datovou sadu pro experimenty, vyhodnotil filtrovací metriky a natrénováním modelů zjišťoval možnosti semi-supervised učení. Vyhodnocení filtrovacích metrik přináší dle mého názoru užitečné výsledky, avšak samotné trénování s neanotovanými daty není příliš konzistentní. Především z časových důvodů nebylo možné vyzkoušet více různých strategií pro trénování modelů.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Informace k zadání | V rámci bakalářské práce se jedná o náročnější zadání, které využívá state-of-the-art modely pro rozpoznávání textu na bázi modelu Transformer. Práce měla za cíl experimentálně ověřit možnosti těchto modelů při semi-supervised trénování s anotovanými i neanotovanými řádky historických manuskriptů, konkrétně s použitím metody pseudo-labeling a filtrováním řádků s nejistým přepisem. Student si v rámci práce sehnal a zpracoval velkou neanotovanou datovou sadu středověkých manuskriptů, kterou využil při trénování modelů. V rámci experimentů vyhodnotil několik metrik pro filtrování strojových přepisů. Výsledky semi-supervised trénování pak nejsou příliš konzistentní a naměřená zlepšení modelů jsou spíše zanedbatelná. | ||
| Práce s literaturou | Student byl při hledání literatury přiměřeně aktivní. | ||
| Aktivita během řešení, konzultace, komunikace | V zimním semestru byla četnost konzultací průměrná, avšak aktivita při samotném řešení práce byla spíše nižší. V letním semestru byla četnost konzultací nadprůměrná a aktivita znatelně vyšší. Student byl při konzultacích aktivní a byl na ně dostatečně připraven. | ||
| Aktivita při dokončování | Práce byla dokončována v očekávané době. Finální verze práce byla konzultována. | ||
| Publikační činnost, ocenění |
Student pracoval na zajímavém, nestandardním a lehce náročnějším tématu. Dokázal připravit datové sady a vyhodnotit smysluplné experimenty. Text práce by měl být ucelenější a neuvádět informace o existujících metodách, které jinak nejsou využity. Problematické je, že práce přesně nespecifikuje autorství uvedených metrik pro filtraci.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Náročnost zadání | Práce řeší náročnější a lehce nestandardní téma semi-supervised učení. | ||
| Rozsah splnění požadavků zadání | |||
| Rozsah technické zprávy | |||
| Prezentační úroveň technické zprávy | 70 | Text je pro čtenáře pochopitelný, ale některé části 2. kapitoly nejsou v textu dále využity. Následující text téměř nevyužívá popisů neuronových sítí pro přepis textu (hlavně rekurentních sítí trénovaných trénovaných pomocí CTC). Stejně tak Kapitola 3.1 a 3.3 popisují metody učení, které pak v práci nejsou vůbec využity. Trochu mi v práci chybí základní popis technické realizace. V popisech modelů a metod jsou občas nepřesnosti. Bylo by také vhodné přesně popsat neuronové sítě použité v experimentech. | |
| Formální úprava technické zprávy | 82 | Práce je kvalitní po jazykové i typografické tránce. Oceňuji vektorové grafy a schémata. Oceňuji také dobře vysázené rovnice, jen za nimi chybí interpunkce. | |
| Práce s literaturou | 71 | Práce se odkazuje na 25 převážně odborných článků, které jsou k tématu relevantní a v práci jsou vhodně využity. Zdroje dobře pokrývají řešené téma, ale některé jsou využity v práci jen v popisech daných metod, ale už nemají přímý vztah k prezentovanému řešení (jak je uvedeno v hodnocení prezentační úrovně). V textu se sice občas objevují nepřesnosti, ale není to příliš vážné. Nevhodné je uvedení filtrovacích metrik, u kterých není jasné, které jsou převzaté a které byly navrženy autorem. Z tohoto důvodu o stupeň snižuji hodnocení této části. | |
| Realizační výstup | 79 | Student vyhodnotil zajímavé experimenty. Bohužel výsledky neukazují dostatečně významný přínos a nepotvrdilo se tak zatím, že by daný přístup mohl být perspektivní. Vzhledem k množství odevzdaných souborů by mohlo být v readme souboru přesně vypsáno, které z nich autor upravoval. | |
| Využitelnost výsledků | Student provedl nové experimenty, které poskytují užitečné informace. Jako vždy zůstávají otázky, jak moc jsou výsledky důvěryhodné, ale ty jsou vždy. |
eVSKP id 164650