Posudky závěrečné kvalifikační práce

Pan Trstenský navrhl a implementoval experimentální nástroje podle zadání, provedl požadované experimenty a vše zdokumentoval v technické zprávě. Dojem z práce kazí pouze nižší aktivita v letním semestru a poněkud hektické dokončování práce. Přesto však považuji dosažené výsledky za přínosné a potenciálně užitečné pro další výzkum v této oblasti. Navrhuji proto celkově průměrné hodnocení stupněm C.

Dílčí hodnocení
Kritérium	Známka	Body	Slovní hodnocení
Informace k zadání			Cílem zadání bylo prozkoumat metody rozpoznávání pojmenovaných entit v textu a prozkoumat možnosti jejich aplikace na obsah webových stránek. Zadání považuji za obtížnější, protože webové stránky často neobsahují souvislý text, ale spíše úryvky a samostatné údaje, což může komplikovat nasazení běžně používaných metod. Zadání považuji za splněné.
Práce s literaturou			Student využíval doporučenou literaturu a samostatně si vyhledával další informační zdroje.
Aktivita během řešení, konzultace, komunikace			Student byl aktivní zejména v zimním semestru své řešení konzultoval v poněkud delších intervalech, ale vždy prezentoval pokrok v řešení. V letním semestru byla aktivita nižší, nicméně mě několikrát o pruběhu řešení informoval.
Aktivita při dokončování			Práce byla dokončována v časové tísni. Měl jsem možnost připomínkovat pracovní verzi technické zprávy, neměl jsem však možnost se detailně seznámit s implementovanými experimentálními nástroji a jeho výstupy.
Publikační činnost, ocenění

Posudek oponenta

Bartík, Vladimír

Diplomová práce pana Trstenského splňuje vytyčené cíle a vytvořený realizační výstup je použitelný k dalšímu experimentování. Ale vzhledem k nedostatkům v technické zprávě hodnotím tuto diplomovou práci stupněm C (dobře).

Dílčí hodnocení
Kritérium	Body	Slovní hodnocení
Náročnost zadání		Cílem diplomové práce bylo prostudovat a vyzkoušet možnosti využití klasifikátorů textu a metod rozpoznávání pojmenovaných entit na textová data z webových stránek. Bylo potřeba zejména vyhledat existující řešení a vytvořit dataset z existujících webových stránek. Cíle diplomové práce byly splněny a bylo provedeno množství experimentů prokazující vlastnosti jednotlivých metod.
Rozsah splnění požadavků zadání		Všechny body zadání byly splněny.
Rozsah technické zprávy		Rozsah technické zprávy splňuje předepsané požadavky.
Prezentační úroveň technické zprávy	77	Práce je po obsahové stránce kvalitní, shrnutí existujících knihoven pro zpracování textu je velmi cenné i pro ty, kteří by podobně zaměřenou práci řešili v budoucnu. Také způsob získání vstupního datasetu a zejména popis a výsledky provedených experimentů jsou zpracovány podrobně a přehledně. V teoretické části (kap. 3) mohl být podrobněji rozebrán formát JSON-LD, který byl nakonec využit. Také mi chybí vysvětlení, proč nakonec nebyly pro tvorbu datasetu použity některé zdroje zmíněné v kap. 3, např. DBPedia nebo WikiData. K rozčlenění práce do jednotlivých kapitol jinak nemám výhrady a práce jako celek je psána srozumitelně.
Formální úprava technické zprávy	55	Jazyková stránka technické zprávy je nejslabším článkem celé práce. Jazykových chyb a různých překlepů je v práci relativně hodně, práce by si jistě zasloužila ještě minimálně jednu revizi textu. Stylisticky práce také není ideální. Po typografické stránce je technická zpráva, až na pár drobností, bez nedostatků.
Práce s literaturou	85	Student použil ke studiu problematiky celou řadu kvalitních pramenů, tyto prameny jsou v technické zprávě náležitě odazovány a k porušení citační etiky tak zcela jistě nedošlo. Jen si nejsem jistý, zda některé citace v seznamu literatury jsou správně z hlediska jejich formátu (prameny č. 5, 6, 18).
Realizační výstup	85	Výsledkem jsou modely natrénované s použitím vytvořeného datasetu, které je možné použít pro klasifikaci textu získaného z webových stránek, aniž by musela být brána v potaz struktura a vzhled dané webové stránky. V experimentální části je porovnáno několik modelů. Zpracování výledků experimentů je kvalitní.
Využitelnost výsledků		Práce je cenná především z hlediska provedených experimentů a vyzkoušení různých metod klasifikace textu. Výsledky dosažené v této práci mohou být využity v dalším výzkumu extrakce dat z webových dokumentů na UIFS FIT.

Posudky

Posudek vedoucího

Burget, Radek

Posudek oponenta

Bartík, Vladimír

Otázky