HLOŽEK, M. Automatické doplňování a opravy Wikidat a Wikipedie na základě extrakce informací [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Smrž, Pavel

Z hlediska aktivity studenta během obou semestrů a naplnění záměru  hodnotím práci stupněm E. Cíle se sice podařilo formálně splnit, nicméně výsledný systém není lepší než dosud používané řešení pro extrakci, a není dostatečně optimalizovaný, aby jej bylo možné snadno nasadit.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Zadání navazuje na předchozí absolventské práce a systém aktuálně používaný Výzkumnou skupinou znalostních technologií KnoT. Bylo k němu možné přistoupit různými způsoby, nicméně hlavním cílem bylo vylepšit současný systém extrakce pojmenovaných entit z Wikipedie. To se studentovi ne zcela podařilo, takže i když formálně zadání splnil, nelze dosažené výsledky označit jako uspokojivé.
Práce s literaturou Student nebyl při získávání a využívání studijních materiálů příliš aktivní, nezabýval se prakticky vůbec nejmodernějšími metodami extrakce informací, a nepodařilo se mu hlouběji proniknout ani do dříve implementovaných metod zpracování srovnávacích dat.
Aktivita během řešení, konzultace, komunikace Práci studenta bohužel nelze chápat jako soustavnou, zejména v prvním semestru byla jeho aktivita velmi nízká. Svůj postup konzultoval spíše nahodile a pravidelně neinformoval o výsledcích jednotlivých kroků, jak jsem domluveno.
Aktivita při dokončování Předběžný obsah některých kapitol jsem měl možnost připomínkovat, nicméně definitivní podoba práce nebyla dostatečně konzultována a zaostala za očekáváním.
Publikační činnost, ocenění -
Navrhovaná známka
E
Body
55

Posudek oponenta

Otrusina, Lubomír

Student měl vytvořit systém pro anglický, český a slovenský jazyk, ale omezil se pouze na anglický jazyk. Technická zpráva je místy hůře srozumitelná, obsahuje nepřesnosti, nevysvětlené pojmy a problematiku popisuje spíše povrchně. Chybí příklady, které by pomohly čtenáři lépe pochopit danou problematiku. Technická zpráva obsahuje nedostatky při práci s literaturou. Realizační výstup je velmi jednoduchý a systém není dostatečně vyhodnocen. Z těchto důvodů navrhuji hodnocení stupněm dostatečně (58 b).

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání
Rozsah splnění požadavků zadání V bodě 2) měl student navrhnout a implementovat systém pro automatickou extrakci typů a základních atributů pojmenovaných entit z exportu dat z anglické, české a slovenské Wikipedie. V práci se však omezil pouze na anglický jazyk. Závažnost tohoto nedostatku je spíše nižší.
Rozsah technické zprávy Technická zpráva splňuje minimální požadavky na rozsah. Všechny její části jsou informačně bohaté. Nicméně některé části by bylo vhodné rozšířit. V práci chybí popis metodiky vyhodnocení systému. Popis metod se zaměřuje spíše na klasifikaci textu a příliš nezmiňuje metody pro extrakci informací.
Prezentační úroveň technické zprávy 60 Práce je v některých místech hůře pochopitelná pro čtenáře. Student jako by předpokládal, že je čtenář seznámen s danou problematikou. Práce obsahuje mnohé nepřesnosti a také některá sporná či nepravdivá tvrzení. Některé pojmy zůstávají nevysvětleny (např CNN). Student často popisuje problematiku příliš povrchně a není zřejmé, jakou to má souvislost s realizačním výstupem. V práci se téměř vůbec nenacházejí příklady. Jejich přítomnost by přitom výrazně pomohla čtenáři danou problematiku pochopit. Některé obrázky jsou nedostatečně vysvětleny (např. obr. 3.1), obr. 4.4 by měl být spíše tabulkou. Některé termíny jsou nevhodně přeloženy (např. "Part of speech" jako "časť reči").
Formální úprava technické zprávy 70 Formální úprava technické zprávy je průměrná. Práci by slušelo číslování kapitol až do třetí úrovně. Popisky u tabulek a obrázků by mohly být podrobnější (např. Tabulka 3.1 nemá žádný popisek).
Práce s literaturou 60 Student v práci často nevhodně cituje použité zdroje, a to tak, že referenci na zdroj umístí vždy na začátek celé kapitoly. Není pak zcela jasné, které části převzal a které napsal sám. V podkapitole Freebase a Wikidata student neuvádí žádné zdroje. Na to, jak je daná problematika prozkoumaná, čerpá student pouze z malého množství vědeckých prací. Nebylo by špatné do zdrojů zařadit také doporučenou literaturu.
Realizační výstup 55 Realizační výstup práce splňuje zadání v nejmenší možné míře. Vytvořený systém není v technické zprávě dostatečně vyhodnocen. Student jej pouze porovnává s existujícím systémem výzkumné skupiny KNOT. Podobných systémů je přitom spousta a student je dokonce i v práci zmiňuje. Z technické zprávy je jasné, že v porovnání s ostatními systémy studentem vytvořený systém zaostává. Některé kategorie nedokáže vůbec určit, stejně tak některé atributy nedokáže extrahovat. U vyhodnocení extrakce atributů se student omezuje pouze na to, kolik jich dokázal vyextrahovat, ale už neříká, jestli jsou správně. Chybí podrobnější diskuze výsledků.
Využitelnost výsledků Jedná se o práci kompilačního charakteru. Výsledky pravděpodobně nejsou v praxi využitelné.
Navrhovaná známka
E
Body
58

Otázky

eVSKP id 156454