TRSTENSKÝ, P. Metody klasifikace textu v kontextu webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Pan Trstenský navrhl a implementoval experimentální nástroje podle zadání, provedl požadované experimenty a vše zdokumentoval v technické zprávě. Dojem z práce kazí pouze nižší aktivita v letním semestru a poněkud hektické dokončování práce. Přesto však považuji dosažené výsledky za přínosné a potenciálně užitečné pro další výzkum v této oblasti. Navrhuji proto celkově průměrné hodnocení stupněm C.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Cílem zadání bylo prozkoumat metody rozpoznávání pojmenovaných entit v textu a prozkoumat možnosti jejich aplikace na obsah webových stránek. Zadání považuji za obtížnější, protože webové stránky často neobsahují souvislý text, ale spíše úryvky a samostatné údaje, což může komplikovat nasazení běžně používaných metod. Zadání považuji za splněné. | ||
Práce s literaturou | Student využíval doporučenou literaturu a samostatně si vyhledával další informační zdroje. | ||
Aktivita během řešení, konzultace, komunikace | Student byl aktivní zejména v zimním semestru své řešení konzultoval v poněkud delších intervalech, ale vždy prezentoval pokrok v řešení. V letním semestru byla aktivita nižší, nicméně mě několikrát o pruběhu řešení informoval. | ||
Aktivita při dokončování | Práce byla dokončována v časové tísni. Měl jsem možnost připomínkovat pracovní verzi technické zprávy, neměl jsem však možnost se detailně seznámit s implementovanými experimentálními nástroji a jeho výstupy. | ||
Publikační činnost, ocenění |
Diplomová práce pana Trstenského splňuje vytyčené cíle a vytvořený realizační výstup je použitelný k dalšímu experimentování. Ale vzhledem k nedostatkům v technické zprávě hodnotím tuto diplomovou práci stupněm C (dobře).
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Cílem diplomové práce bylo prostudovat a vyzkoušet možnosti využití klasifikátorů textu a metod rozpoznávání pojmenovaných entit na textová data z webových stránek. Bylo potřeba zejména vyhledat existující řešení a vytvořit dataset z existujících webových stránek. Cíle diplomové práce byly splněny a bylo provedeno množství experimentů prokazující vlastnosti jednotlivých metod. | ||
Rozsah splnění požadavků zadání | Všechny body zadání byly splněny. | ||
Rozsah technické zprávy | Rozsah technické zprávy splňuje předepsané požadavky. | ||
Prezentační úroveň technické zprávy | 77 | Práce je po obsahové stránce kvalitní, shrnutí existujících knihoven pro zpracování textu je velmi cenné i pro ty, kteří by podobně zaměřenou práci řešili v budoucnu. Také způsob získání vstupního datasetu a zejména popis a výsledky provedených experimentů jsou zpracovány podrobně a přehledně. V teoretické části (kap. 3) mohl být podrobněji rozebrán formát JSON-LD, který byl nakonec využit. Také mi chybí vysvětlení, proč nakonec nebyly pro tvorbu datasetu použity některé zdroje zmíněné v kap. 3, např. DBPedia nebo WikiData. K rozčlenění práce do jednotlivých kapitol jinak nemám výhrady a práce jako celek je psána srozumitelně. | |
Formální úprava technické zprávy | 55 | Jazyková stránka technické zprávy je nejslabším článkem celé práce. Jazykových chyb a různých překlepů je v práci relativně hodně, práce by si jistě zasloužila ještě minimálně jednu revizi textu. Stylisticky práce také není ideální. Po typografické stránce je technická zpráva, až na pár drobností, bez nedostatků. | |
Práce s literaturou | 85 | Student použil ke studiu problematiky celou řadu kvalitních pramenů, tyto prameny jsou v technické zprávě náležitě odazovány a k porušení citační etiky tak zcela jistě nedošlo. Jen si nejsem jistý, zda některé citace v seznamu literatury jsou správně z hlediska jejich formátu (prameny č. 5, 6, 18). | |
Realizační výstup | 85 | Výsledkem jsou modely natrénované s použitím vytvořeného datasetu, které je možné použít pro klasifikaci textu získaného z webových stránek, aniž by musela být brána v potaz struktura a vzhled dané webové stránky. V experimentální části je porovnáno několik modelů. Zpracování výledků experimentů je kvalitní. | |
Využitelnost výsledků | Práce je cenná především z hlediska provedených experimentů a vyzkoušení různých metod klasifikace textu. Výsledky dosažené v této práci mohou být využity v dalším výzkumu extrakce dat z webových dokumentů na UIFS FIT. |
eVSKP id 147036