JANÍK, R. Extrakce informací z dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Student měl zájem o řešené téma, dobře se seznámil se stavem poznání v dané oblasti, vytvořil novou užitečnou datovou sadu a provedl řadu experimentů, které poskytují zajímavé informace. Celkově práce posunuje stav poznání. Postup řešení ale mohl být rychlejší a přímočařejší a student mohl být lépe připraven na konzultace.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Téma je spojené s projekty zpracování historických dokumentů, které v naší skupině aktuálně řešíme. Původní otevřené téma jsme během řešení upřesnili na detekci pojmenovaných entit ve starších českých dokumentech a z tohoto důvodu jsme se zaměřili na metody, které pracují pouze s textem, protože v tomto případě se ukazuje, že další informace jako pozice a vzhled textu nejsou natolik důležité, aby byly schopny zlepšit výsledky. Student vytvořil novou datovou sadu z domény dokumentů, se kterými v projektech pracujeme a vyhodnotil řadu modelů včetně nově předtrénovaných rychlých maskovaných jazykových modelů pro češtinu. Celkově práce posunuje poznání v oblasti zpracování starších českých dokumentů a vytvořená datová sada může sloužit pro vyhodnocování předtrénovaných modelů pro zpracování jazyka. Výsledky v současnosti nejsou přímo využívány v řešených projektech. | ||
Práce s literaturou | Student si vyhledal a nastudoval relevantní zdroje a seznámil se s aktuálním stavem poznání v řešené oblasti. | ||
Aktivita během řešení, konzultace, komunikace | Student průběžně svou práci konzultoval, ale na konzultace mohl být lépe připraven a práce mohla postupovat rychleji. | ||
Aktivita při dokončování | Student práci dokončoval spíše ve spěchu a konečnou podobu práce konzultoval až ve chvíli, kdy již nebyl prostor na výraznější úpravy. Použité metody, přístupy, experimenty a interpretaci experimentů konzultoval dobře. | ||
Publikační činnost, ocenění |
Student vynaložil velké úsilí při vytváření datasetů, které byly vytvořeny v poloautomatickém režimu a jejich anotace musely být ručně korigovány. Dále navrhl jazykový model sestavený ze standardních bloků s vlastní nastavením, se kterým dosáhl state-of-the-art výsledků na dvou českých datasetech pro rozpoznávání pojmenovaných entit (NER) a stanovil baseline řešení pro nový dateset PERO OCR NER (PONER), určený k publikaci.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Student se věnoval tématu extrakce informací z dokumentů. Konkrétně se věnoval jazykovým modelům pro extrakci informací / sumarizaci textu. Konkrétně se jedná o přístupy - Named Entity Recognition (NER) a Masked Language Modelling (MLM). | ||
Rozsah splnění požadavků zadání | Všechny body zadání byly splněny. Nadstandartně jsou splněny body zadání 4) a 5). | ||
Rozsah technické zprávy | Rozsah práce je v obvyklém rozmezí. Závěr práce je na straně 50. | ||
Prezentační úroveň technické zprávy | 90 | Práce má logickou strukturu. Jednotlivé kapitoly na sebe dobře navazují a jejich rozsah je adekvátní. Prezentační úroveň práce je dobrá a text se čtenáři dobře čte. | |
Formální úprava technické zprávy | 80 | Práce je psána v anglickém jazyce. Objevuje se v ní pouze malé množství překlepů a gramatických chyb. Práce obsahuje malé množství typografických chyb. | |
Práce s literaturou | 95 | Student si vyhledal relevantní zdroje a literaturu. Všechny citace jsou v textu použity korektně. | |
Realizační výstup | 95 | Výstupem práce je sada skriptů pro zpracování datasetů a trénování jazykových modelů. Všechny skripty jsou parametrizovatelné a uživateli umožňují poměrně snadné vytvoření nového jazykového modelu, kdykoliv má k dispozici nová trénovací data. Dále je výstupem sada tří datasetů - dva z nich jsou vhodné pro MLM, poslední je vytvořený pro účely NER. | |
Využitelnost výsledků | Natrénované jazykové modely jsou spolehlivé a funkční. Na dostupných datasetech CNER (Czech Named Entity Recognition) a CHNER (Czech Historical Named Entity Recognition) dosáhly nejlepší natrénované modely state-of-the-art výsledků. Závěry práce a dosažené výsledky jsou vhodné k publikaci. |
eVSKP id 148996