JURIŠICA, R. Extrakce informací z Wikipedie [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Smrž, Pavel

Z hlediska aktivity studenta hodnotím práci stupněm D. Řešení nakonec věnoval očekávané množství času a úsilí, nicméně se mu nepodařilo zcela dohnat počáteční skluz a vytvořit očekávaný robustní systém.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Zadání navazuje na dřívější absolventské práce a na stávající systém extrakce pojmenovaných entit a doplňkových informací z Wikipedie, vytvořený v rámci Výzkumné skupiny znalostních technologií FIT VUT v Brně. Záměrem bylo zlepšit kvalitu extrakce a zvýšit pokrytí extrahované znalostní báze tak, aby bylo označeno co nejvíce zmínek o pojmenovaných entitách v textech. Student se v prvním semestru věnoval extrakci rozcestníků, tento prvotní úkol mu však zabral velké množství času, takže se v dalším období soustředil už jen na menší podčást úkolu, týkající se derivativních vazeb české morfologie. Po dlouhém snažení se mu nakonec podařilo vygenerovat pravidla pro  vytváření nejběžnějších odvozených tvarů (například přivlastňovací přídavná jména pro příjmení), nicméně nedotáhl již zcela vyhodnocení úspěšnosti takových doplnění.
Práce s literaturou Práce s odbornou literaturou byla spíše na slabší úrovni, většinu poznatků student čerpal z článků na Wikipedii a nesnažil se proniknout do problematiky hlouběji, například prostřednictvím studia relevantních časopiseckých článků a konferenčních příspěvků.
Aktivita během řešení, konzultace, komunikace Aktivita studenta byla v prvním semestru nižší, postupně rostla . Práce probíhaly obecně pomalu, takže se nepodařilo dodržet termíny a zcela dotáhnout předpokládanou funkcionalitu.
Aktivita při dokončování Technická zpráva nebyla dokončena v dostatečné předstihu, některé moje připomínky se podařilo zohlednit, nicméně odevzdaná podoba trpí stále mnoha nedostatky.
Publikační činnost, ocenění -
Navrhovaná známka
D
Body
60

Posudek oponenta

Otrusina, Lubomír

Student se významně odchýlil od zadání. Bohužel teoretická část práce změnu zadání nijak nereflektuje a věnuje se původnímu zadání. Studentem vytvořený systém se věnuje morfologii, o které není v technické zprávě téměř žádné zmínka. Vytvořený realizační systém je velmi jednoduchý (nepoužívá žádné metody strojového učení) a jeho úspěšnost není v práci nijak vyhodnocena. Z těchto důvodů hodnotím práci stupněm nevyhovující (49 b).

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání
Rozsah splnění požadavků zadání Zadáním práce bylo vytvoření systému pro automatickou extrakci typů a základních atributů pojmenovaných entit z Wikipedie. Studentem vytvořený realizační výstup tohle ovšem nedělá, student se zaměřil na morfologii. Problém ovšem je, že se student v teoretické části technické zprávy věnuje původnímu zadání, které s vytvořeným systémem nesouvisí. Naopak o morfologii nepíše téměř nic.
Rozsah technické zprávy Rozsah práce je v obvyklém rozmezí. Všechny části práce jsou informačně bohaté. Nicméně značná část technické zprávy se věnuje metodám, které student nepoužije (viz změna zadání), a to, čemu se věnuje, popisuje nedostatečně.
Prezentační úroveň technické zprávy 50 Logická struktura technické zprávy je špatná. U většiny kapitol teoretické části není zřejmé, proč tam jsou, neboť nejsou dále nijak použity (strany 11 - 20). Navíc často nejsou některé metody dostatečně vysvětleny a jejich popis je spíše povrchní. Návaznost jednotlivých kapitol není dobrá, protože student v teoretické části popisuje něco, co během implementace svého systému nevyužije. Čtenář předpokládá, že se bude práce věnovat extrakci informací, nicméně implementovaný systém je zaměřený primárně na morfologii. Práce obsahuje nepřesná, sporná či nepravdivá tvrzení.
Formální úprava technické zprávy 70 Formální úprava technické zprávy je spíše průměrná. Technická zpráva obsahuje občasné překlepy. Úryvky kódu nejsou číslovány, často bývají nedostatečně vysvětleny a jsou velmi nepřehledné. Diagramy jsou nepřehledné, student nepoužívá žádné konvence pro tvorbu diagramů a nijak od sebe neodlišuje procesy a data.
Práce s literaturou 50 Student velmi rád čerpá z Wikipedie a z různých blogů (málokdy z vědeckých článků). Přitom je toto téma ve vědecké literatuře velmi dobře zpracováno. Student dokonce ani nevyužívá doporučenou literaturu. V kapitole 2.3.4 Trénování čerpá student z blogu, který volně překládá nebo jen mírně upravuje. Rovněž některé příklady jsou přebírány jen s minimálními úpravami (např. příklad s kočkami a psy na straně 17).
Realizační výstup 50 Realizační výstup práce je velmi jednoduchý. Pomineme-li fakt, že student dělal něco jiného, než je v zadání, jím vytvořený systém nevyužívá žádné metody strojového učení. Systém provádí jednoduchou extrakci informací z rozcestníků. Pro nově nalezená jména (z rozcestníků nebo z Knowledge Base) vytváří jednoduchým způsobem odvozené tvary. Umí detekovat nekonzistence mezi Wikipedií a Wikidaty a takové nekonzistence na Wikipedii opravit. Jedná se však o velmi jednoduché řešení. Navíc systém není v práci nijak vyhodnocen, takže ani nevíme, jestli jím vytvořená data jsou v pořádku.
Využitelnost výsledků Jedná se o práci kompilačního charakteru. Výsledky práce nejsou v praxi nijak využitelné.
Navrhovaná známka
F
Body
49

Otázky

eVSKP id 154486