Posudky závěrečné kvalifikační práce

Student měl zájem o řešené téma, dobře se seznámil se stavem poznání v dané oblasti, vytvořil novou užitečnou datovou sadu a provedl řadu experimentů, které poskytují zajímavé informace. Celkově práce posunuje stav poznání. Postup řešení ale mohl být rychlejší a přímočařejší a student mohl být lépe připraven na konzultace.

Dílčí hodnocení
Kritérium	Známka	Body	Slovní hodnocení
Informace k zadání			Téma je spojené s projekty zpracování historických dokumentů, které v naší skupině aktuálně řešíme. Původní otevřené téma jsme během řešení upřesnili na detekci pojmenovaných entit ve starších českých dokumentech a z tohoto důvodu jsme se zaměřili na metody, které pracují pouze s textem, protože v tomto případě se ukazuje, že další informace jako pozice a vzhled textu nejsou natolik důležité, aby byly schopny zlepšit výsledky. Student vytvořil novou datovou sadu z domény dokumentů, se kterými v projektech pracujeme a vyhodnotil řadu modelů včetně nově předtrénovaných rychlých maskovaných jazykových modelů pro češtinu. Celkově práce posunuje poznání v oblasti zpracování starších českých dokumentů a vytvořená datová sada může sloužit pro vyhodnocování předtrénovaných modelů pro zpracování jazyka. Výsledky v současnosti nejsou přímo využívány v řešených projektech.
Práce s literaturou			Student si vyhledal a nastudoval relevantní zdroje a seznámil se s aktuálním stavem poznání v řešené oblasti.
Aktivita během řešení, konzultace, komunikace			Student průběžně svou práci konzultoval, ale na konzultace mohl být lépe připraven a práce mohla postupovat rychleji.
Aktivita při dokončování			Student práci dokončoval spíše ve spěchu a konečnou podobu práce konzultoval až ve chvíli, kdy již nebyl prostor na výraznější úpravy. Použité metody, přístupy, experimenty a interpretaci experimentů konzultoval dobře.
Publikační činnost, ocenění

Posudek oponenta

Špaňhel, Jakub

Student vynaložil velké úsilí při vytváření datasetů, které byly vytvořeny v poloautomatickém režimu a jejich anotace musely být ručně korigovány. Dále navrhl jazykový model sestavený ze standardních bloků s vlastní nastavením, se kterým dosáhl state-of-the-art výsledků na dvou českých datasetech pro rozpoznávání pojmenovaných entit (NER) a stanovil baseline řešení pro nový dateset PERO OCR NER (PONER), určený k publikaci.

Dílčí hodnocení
Kritérium	Body	Slovní hodnocení
Náročnost zadání		Student se věnoval tématu extrakce informací z dokumentů. Konkrétně se věnoval jazykovým modelům pro extrakci informací / sumarizaci textu. Konkrétně se jedná o přístupy - Named Entity Recognition (NER) a Masked Language Modelling (MLM).
Rozsah splnění požadavků zadání		Všechny body zadání byly splněny. Nadstandartně jsou splněny body zadání 4) a 5).
Rozsah technické zprávy		Rozsah práce je v obvyklém rozmezí. Závěr práce je na straně 50.
Prezentační úroveň technické zprávy	90	Práce má logickou strukturu. Jednotlivé kapitoly na sebe dobře navazují a jejich rozsah je adekvátní. Prezentační úroveň práce je dobrá a text se čtenáři dobře čte.
Formální úprava technické zprávy	80	Práce je psána v anglickém jazyce. Objevuje se v ní pouze malé množství překlepů a gramatických chyb. Práce obsahuje malé množství typografických chyb.
Práce s literaturou	95	Student si vyhledal relevantní zdroje a literaturu. Všechny citace jsou v textu použity korektně.
Realizační výstup	95	Výstupem práce je sada skriptů pro zpracování datasetů a trénování jazykových modelů. Všechny skripty jsou parametrizovatelné a uživateli umožňují poměrně snadné vytvoření nového jazykového modelu, kdykoliv má k dispozici nová trénovací data. Dále je výstupem sada tří datasetů - dva z nich jsou vhodné pro MLM, poslední je vytvořený pro účely NER.
Využitelnost výsledků		Natrénované jazykové modely jsou spolehlivé a funkční. Na dostupných datasetech CNER (Czech Named Entity Recognition) a CHNER (Czech Historical Named Entity Recognition) dosáhly nejlepší natrénované modely state-of-the-art výsledků. Závěry práce a dosažené výsledky jsou vhodné k publikaci.

Posudky

Posudek vedoucího

Hradiš, Michal

Posudek oponenta

Špaňhel, Jakub

Otázky