JANÍK, R. Extrakce informací z dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Hradiš, Michal

Student měl zájem o řešené téma, dobře se seznámil se stavem poznání v dané oblasti, vytvořil novou užitečnou datovou sadu a provedl řadu experimentů, které poskytují zajímavé informace. Celkově práce posunuje stav poznání. Postup řešení ale mohl být rychlejší a přímočařejší a student mohl být lépe připraven na konzultace. 

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Téma je spojené s projekty zpracování historických dokumentů, které v naší skupině aktuálně řešíme. Původní otevřené téma jsme během řešení upřesnili na detekci pojmenovaných entit ve starších českých dokumentech a z tohoto důvodu jsme se zaměřili na metody, které pracují pouze s textem, protože v tomto případě se ukazuje, že další informace jako pozice a vzhled textu nejsou natolik důležité, aby byly schopny zlepšit výsledky. Student vytvořil novou datovou sadu z domény dokumentů, se kterými v projektech pracujeme a vyhodnotil řadu modelů včetně nově předtrénovaných rychlých maskovaných jazykových modelů pro češtinu. Celkově práce posunuje poznání v oblasti zpracování starších českých dokumentů a vytvořená datová sada může sloužit pro vyhodnocování předtrénovaných modelů pro zpracování jazyka. Výsledky v současnosti nejsou přímo využívány v řešených projektech. 
Práce s literaturou Student si vyhledal a nastudoval relevantní zdroje a seznámil se s aktuálním stavem poznání v řešené oblasti.
Aktivita během řešení, konzultace, komunikace Student průběžně svou práci konzultoval, ale na konzultace mohl být lépe připraven a práce mohla postupovat rychleji. 
Aktivita při dokončování Student práci dokončoval spíše ve spěchu a konečnou podobu práce konzultoval až ve chvíli, kdy již nebyl prostor na výraznější úpravy. Použité metody, přístupy, experimenty a interpretaci experimentů konzultoval dobře. 
Publikační činnost, ocenění
Navrhovaná známka
C
Body
75

Posudek oponenta

Špaňhel, Jakub

Student vynaložil velké úsilí při vytváření datasetů, které byly vytvořeny v poloautomatickém režimu a jejich anotace musely být ručně korigovány. Dále navrhl jazykový model sestavený ze standardních bloků s vlastní nastavením, se kterým dosáhl state-of-the-art výsledků na dvou českých datasetech pro rozpoznávání pojmenovaných entit (NER) a stanovil baseline řešení pro nový dateset PERO OCR NER (PONER), určený k publikaci.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Student se věnoval tématu extrakce informací z dokumentů. Konkrétně se věnoval jazykovým modelům pro extrakci informací / sumarizaci textu. Konkrétně se jedná o přístupy - Named Entity Recognition (NER) a Masked Language Modelling (MLM).
Rozsah splnění požadavků zadání Všechny body zadání byly splněny. Nadstandartně jsou splněny body zadání 4) a 5).
Rozsah technické zprávy Rozsah práce je v obvyklém rozmezí. Závěr práce je na straně 50.
Prezentační úroveň technické zprávy 90 Práce má logickou strukturu. Jednotlivé kapitoly na sebe dobře navazují a jejich rozsah je adekvátní. Prezentační úroveň práce je dobrá a text se čtenáři dobře čte.
Formální úprava technické zprávy 80 Práce je psána v anglickém jazyce. Objevuje se v ní pouze malé množství překlepů a gramatických chyb. Práce obsahuje malé množství typografických chyb.
Práce s literaturou 95 Student si vyhledal relevantní zdroje a literaturu. Všechny citace jsou v textu použity korektně. 
Realizační výstup 95 Výstupem práce je sada skriptů pro zpracování datasetů a trénování jazykových modelů. Všechny skripty jsou parametrizovatelné a uživateli umožňují poměrně snadné vytvoření nového jazykového modelu, kdykoliv má k dispozici nová trénovací data. Dále je výstupem sada tří datasetů - dva z nich jsou vhodné pro MLM, poslední je vytvořený pro účely NER.
Využitelnost výsledků Natrénované jazykové modely jsou spolehlivé a funkční. Na dostupných datasetech CNER (Czech Named Entity Recognition) a CHNER (Czech Historical Named Entity Recognition) dosáhly nejlepší natrénované modely state-of-the-art výsledků. Závěry práce a dosažené výsledky jsou vhodné k publikaci.
Navrhovaná známka
A
Body
95

Otázky

eVSKP id 148996