KATRŇÁK, J. Metody strojového učení nad webovými dokumenty [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Burget, Radek

Pan Katrňák důkladně prostudoval množství vědeckých článků z oblasti metod strojového učení a jejich aplikace pro extrakci informací z WWW a navrhl zcela novou metodu založenou na grafových neuronových sítích, která v některých aspektech překonává v současnosti známé metody. Vlastnosti nové metody ověřil množstvím experimentů a výsledky prezentoval na konferenci Excel. Podle mého názoru se tato práce může stát základem příspěvku na vědeckou konferenci nebo do časopisu. Navrhuji také zařazení této práce do soutěže IT SPY.  

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Předmětem zadání bylo studium metod pro rozpoznání konkrétních informací na webové stránce s využitím strojového učení a návrh metody, která by využívala zejména vizuální vlastnosti částí obsahu. Vzhledem k tomu, že se jedná o čistě výzkumné téma, považuji zadání za náročné. Zadání bylo splněno a student navíc využil velmi nové experimentální metody v podobě grafových neuronových sítí.
Práce s literaturou Student využíval doporučenou literaturu a aktivně vyhledával další relevantní zdroje, převážně vědecké články.
Aktivita během řešení, konzultace, komunikace Student řešil svoji diplomovou práci po celou dobu aktivně a svědomitě, své řešení pravidelně konzultoval a aktivně přicházel s novými způsoby řešení dílčích problémů.
Aktivita při dokončování Práce byla dokončena ve značném předstihu a výsledná podoba realizačního výstupu i technické zprávy byla opakovaně konzultována. Všechny mé připomínky student v práci zohlednil.
Publikační činnost, ocenění Práce byla prezentována na konferenci Excel@FIT. 
Navrhovaná známka
A
Body
100

Posudek oponenta

Bartík, Vladimír

Diplomová práce pana Katrňáka je po všech stránkách na velmi dobré úrovni, navíc má i vědecký přínos. Proto navrhuji hodnocení této diplomové práce stupněm A (výborně).

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadání hodnotím jako obtížnější z důvodu náročnější studijní etapy, kdy bylo potřeba podrobně prostudovat různé typy neuronových sítí, a také metody extrakce informace z webu, včetně nástroje FitLayout vyvinutého na FIT VUT. Dále bylo potřeba provést segmentaci vstupních webových stránek, uložit výsledky ve vhodném formátu a natrénovat klasifikátor včetně provedení experimentů s různými nastaveními.
Rozsah splnění požadavků zadání Všechny body zadání byly splněny.
Rozsah technické zprávy Požadavky týkající se rozsahu technické zprávy jsou s rezervou splněny.
Prezentační úroveň technické zprávy 90 Technická zpráva je napsána srozumitelně a všechny kroky návrhu a vývoje jsou zde exaktně popsány a vysvětleny. Organizace do kapitol a jejich návaznost je také v pořádku, ani k logické struktuře technické zprávy tak nemám výhrady.
Formální úprava technické zprávy 95 Po formální stránce neshledávám v technické zprávě žádná pochybení, po stránce jazykové je prakticky bez chyb a překlepů, také typograficky ji není co vytknout.
Práce s literaturou 95 Množství literatury uvedené v seznamu použitých pramenů odpovídá náročnosti studijní etapy. Tato literatura je v technické zprávě odkazována a vše je dle normy v pořádku. K porušení citační etiky nedošlo.
Realizační výstup 94 Realizačním výstupem je konzolová aplikace, která má na vstupu libovolnou webovou stránku obsahující informace o produktu, a po aplikaci naučené grafové neuronové sítě z této stránky jsou extrahovány základní informace (název produktu, cena atd.). Úspěšnost této metody je více než 95%, což bylo ověřeno díky rozsáhlým experimentům.
Využitelnost výsledků Práce je zcela jistě přínosná, ukázala, že využití grafových neuronových sítí v kombinaci se segmentací webových stránek založené na vizuální struktuře je úspěšnější než podobný postup založený na modelu DOM. Myslím si, že by výsledky mohly být základem pro vědeckou publikaci.
Navrhovaná známka
A
Body
93

Otázky

eVSKP id 144822