KATRŇÁK, J. Metody strojového učení nad webovými dokumenty [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Pan Katrňák důkladně prostudoval množství vědeckých článků z oblasti metod strojového učení a jejich aplikace pro extrakci informací z WWW a navrhl zcela novou metodu založenou na grafových neuronových sítích, která v některých aspektech překonává v současnosti známé metody. Vlastnosti nové metody ověřil množstvím experimentů a výsledky prezentoval na konferenci Excel. Podle mého názoru se tato práce může stát základem příspěvku na vědeckou konferenci nebo do časopisu. Navrhuji také zařazení této práce do soutěže IT SPY.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Předmětem zadání bylo studium metod pro rozpoznání konkrétních informací na webové stránce s využitím strojového učení a návrh metody, která by využívala zejména vizuální vlastnosti částí obsahu. Vzhledem k tomu, že se jedná o čistě výzkumné téma, považuji zadání za náročné. Zadání bylo splněno a student navíc využil velmi nové experimentální metody v podobě grafových neuronových sítí. | ||
Práce s literaturou | Student využíval doporučenou literaturu a aktivně vyhledával další relevantní zdroje, převážně vědecké články. | ||
Aktivita během řešení, konzultace, komunikace | Student řešil svoji diplomovou práci po celou dobu aktivně a svědomitě, své řešení pravidelně konzultoval a aktivně přicházel s novými způsoby řešení dílčích problémů. | ||
Aktivita při dokončování | Práce byla dokončena ve značném předstihu a výsledná podoba realizačního výstupu i technické zprávy byla opakovaně konzultována. Všechny mé připomínky student v práci zohlednil. | ||
Publikační činnost, ocenění | Práce byla prezentována na konferenci Excel@FIT. |
Diplomová práce pana Katrňáka je po všech stránkách na velmi dobré úrovni, navíc má i vědecký přínos. Proto navrhuji hodnocení této diplomové práce stupněm A (výborně).
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Zadání hodnotím jako obtížnější z důvodu náročnější studijní etapy, kdy bylo potřeba podrobně prostudovat různé typy neuronových sítí, a také metody extrakce informace z webu, včetně nástroje FitLayout vyvinutého na FIT VUT. Dále bylo potřeba provést segmentaci vstupních webových stránek, uložit výsledky ve vhodném formátu a natrénovat klasifikátor včetně provedení experimentů s různými nastaveními. | ||
Rozsah splnění požadavků zadání | Všechny body zadání byly splněny. | ||
Rozsah technické zprávy | Požadavky týkající se rozsahu technické zprávy jsou s rezervou splněny. | ||
Prezentační úroveň technické zprávy | 90 | Technická zpráva je napsána srozumitelně a všechny kroky návrhu a vývoje jsou zde exaktně popsány a vysvětleny. Organizace do kapitol a jejich návaznost je také v pořádku, ani k logické struktuře technické zprávy tak nemám výhrady. | |
Formální úprava technické zprávy | 95 | Po formální stránce neshledávám v technické zprávě žádná pochybení, po stránce jazykové je prakticky bez chyb a překlepů, také typograficky ji není co vytknout. | |
Práce s literaturou | 95 | Množství literatury uvedené v seznamu použitých pramenů odpovídá náročnosti studijní etapy. Tato literatura je v technické zprávě odkazována a vše je dle normy v pořádku. K porušení citační etiky nedošlo. | |
Realizační výstup | 94 | Realizačním výstupem je konzolová aplikace, která má na vstupu libovolnou webovou stránku obsahující informace o produktu, a po aplikaci naučené grafové neuronové sítě z této stránky jsou extrahovány základní informace (název produktu, cena atd.). Úspěšnost této metody je více než 95%, což bylo ověřeno díky rozsáhlým experimentům. | |
Využitelnost výsledků | Práce je zcela jistě přínosná, ukázala, že využití grafových neuronových sítí v kombinaci se segmentací webových stránek založené na vizuální struktuře je úspěšnější než podobný postup založený na modelu DOM. Myslím si, že by výsledky mohly být základem pro vědeckou publikaci. |
eVSKP id 144822