TRSTENSKÝ, P. Metody klasifikace textu v kontextu webových stránek [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Burget, Radek

Pan Trstenský navrhl a  implementoval experimentální nástroje podle zadání, provedl požadované experimenty a vše zdokumentoval v technické zprávě. Dojem z práce kazí pouze nižší aktivita v letním semestru a poněkud hektické dokončování práce. Přesto však považuji dosažené výsledky za přínosné a potenciálně užitečné pro další výzkum v této oblasti. Navrhuji proto celkově průměrné hodnocení stupněm C.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Cílem zadání bylo prozkoumat metody rozpoznávání pojmenovaných entit v textu a prozkoumat možnosti jejich aplikace na obsah webových stránek. Zadání považuji za obtížnější, protože webové stránky často neobsahují souvislý text, ale spíše úryvky a samostatné údaje, což může komplikovat nasazení běžně používaných metod. Zadání považuji za splněné.
Práce s literaturou Student využíval doporučenou literaturu a samostatně si vyhledával další informační zdroje.
Aktivita během řešení, konzultace, komunikace Student byl aktivní zejména v zimním semestru své řešení konzultoval v poněkud delších intervalech, ale vždy prezentoval pokrok v řešení. V letním semestru byla aktivita nižší, nicméně mě několikrát o pruběhu řešení informoval.
Aktivita při dokončování Práce byla dokončována v časové tísni. Měl jsem možnost připomínkovat pracovní verzi technické zprávy, neměl jsem však možnost se detailně seznámit s implementovanými experimentálními nástroji a jeho výstupy.
Publikační činnost, ocenění
Navrhovaná známka
C
Body
75

Posudek oponenta

Bartík, Vladimír

Diplomová práce pana Trstenského splňuje vytyčené cíle a vytvořený realizační výstup je použitelný k dalšímu experimentování. Ale vzhledem k nedostatkům v technické zprávě hodnotím tuto diplomovou práci stupněm C (dobře). 

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Cílem diplomové práce bylo prostudovat a vyzkoušet možnosti využití klasifikátorů textu a metod rozpoznávání pojmenovaných entit na textová data z webových stránek. Bylo potřeba zejména vyhledat existující řešení a vytvořit dataset z existujících webových stránek. Cíle diplomové práce byly splněny a bylo provedeno množství experimentů prokazující vlastnosti jednotlivých metod.
Rozsah splnění požadavků zadání Všechny body zadání byly splněny.
Rozsah technické zprávy Rozsah technické zprávy splňuje předepsané požadavky.
Prezentační úroveň technické zprávy 77 Práce je po obsahové stránce kvalitní, shrnutí existujících knihoven pro zpracování textu je velmi cenné i pro ty, kteří by podobně zaměřenou práci řešili v budoucnu. Také způsob získání vstupního datasetu a zejména popis a výsledky provedených experimentů jsou zpracovány podrobně a přehledně. V teoretické části (kap. 3) mohl být podrobněji rozebrán formát JSON-LD, který byl nakonec využit. Také mi chybí vysvětlení, proč nakonec nebyly pro tvorbu datasetu použity některé zdroje zmíněné v kap. 3, např. DBPedia nebo WikiData. K rozčlenění práce do jednotlivých kapitol jinak nemám výhrady a práce jako celek je psána srozumitelně.
Formální úprava technické zprávy 55 Jazyková stránka technické zprávy je nejslabším článkem celé práce. Jazykových chyb a různých překlepů je v práci relativně hodně, práce by si jistě zasloužila ještě minimálně jednu revizi textu. Stylisticky práce také není ideální. Po typografické stránce je technická zpráva, až na pár drobností, bez nedostatků.
Práce s literaturou 85 Student použil ke studiu problematiky celou řadu kvalitních pramenů, tyto prameny jsou v technické zprávě náležitě odazovány a k porušení citační etiky tak zcela jistě nedošlo. Jen si nejsem jistý, zda některé citace v seznamu literatury jsou správně z hlediska jejich formátu (prameny č. 5, 6, 18).
Realizační výstup 85 Výsledkem jsou modely natrénované s použitím vytvořeného datasetu, které je možné použít  pro klasifikaci textu získaného z webových stránek, aniž by musela být brána v potaz struktura a vzhled dané webové stránky. V experimentální části je porovnáno několik modelů. Zpracování výledků experimentů je kvalitní.
Využitelnost výsledků Práce je cenná především z hlediska provedených experimentů a vyzkoušení různých metod klasifikace textu. Výsledky dosažené v této práci mohou být využity v dalším výzkumu extrakce dat z webových dokumentů na UIFS FIT.
Navrhovaná známka
C
Body
77

Otázky

eVSKP id 147036