KATRŇÁK, J. Metody strojového učení nad webovými dokumenty [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Pan Katrňák důkladně prostudoval množství vědeckých článků z oblasti metod strojového učení a jejich aplikace pro extrakci informací z WWW a navrhl zcela novou metodu založenou na grafových neuronových sítích, která v některých aspektech překonává v současnosti známé metody. Vlastnosti nové metody ověřil množstvím experimentů a výsledky prezentoval na konferenci Excel. Podle mého názoru se tato práce může stát základem příspěvku na vědeckou konferenci nebo do časopisu. Navrhuji také zařazení této práce do soutěže IT SPY.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Informace k zadání | Předmětem zadání bylo studium metod pro rozpoznání konkrétních informací na webové stránce s využitím strojového učení a návrh metody, která by využívala zejména vizuální vlastnosti částí obsahu. Vzhledem k tomu, že se jedná o čistě výzkumné téma, považuji zadání za náročné. Zadání bylo splněno a student navíc využil velmi nové experimentální metody v podobě grafových neuronových sítí. | ||
| Práce s literaturou | Student využíval doporučenou literaturu a aktivně vyhledával další relevantní zdroje, převážně vědecké články. | ||
| Aktivita během řešení, konzultace, komunikace | Student řešil svoji diplomovou práci po celou dobu aktivně a svědomitě, své řešení pravidelně konzultoval a aktivně přicházel s novými způsoby řešení dílčích problémů. | ||
| Aktivita při dokončování | Práce byla dokončena ve značném předstihu a výsledná podoba realizačního výstupu i technické zprávy byla opakovaně konzultována. Všechny mé připomínky student v práci zohlednil. | ||
| Publikační činnost, ocenění | Práce byla prezentována na konferenci Excel@FIT. |
Diplomová práce pana Katrňáka je po všech stránkách na velmi dobré úrovni, navíc má i vědecký přínos. Proto navrhuji hodnocení této diplomové práce stupněm A (výborně).
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Náročnost zadání | Zadání hodnotím jako obtížnější z důvodu náročnější studijní etapy, kdy bylo potřeba podrobně prostudovat různé typy neuronových sítí, a také metody extrakce informace z webu, včetně nástroje FitLayout vyvinutého na FIT VUT. Dále bylo potřeba provést segmentaci vstupních webových stránek, uložit výsledky ve vhodném formátu a natrénovat klasifikátor včetně provedení experimentů s různými nastaveními. | ||
| Rozsah splnění požadavků zadání | Všechny body zadání byly splněny. | ||
| Rozsah technické zprávy | Požadavky týkající se rozsahu technické zprávy jsou s rezervou splněny. | ||
| Prezentační úroveň technické zprávy | 90 | Technická zpráva je napsána srozumitelně a všechny kroky návrhu a vývoje jsou zde exaktně popsány a vysvětleny. Organizace do kapitol a jejich návaznost je také v pořádku, ani k logické struktuře technické zprávy tak nemám výhrady. | |
| Formální úprava technické zprávy | 95 | Po formální stránce neshledávám v technické zprávě žádná pochybení, po stránce jazykové je prakticky bez chyb a překlepů, také typograficky ji není co vytknout. | |
| Práce s literaturou | 95 | Množství literatury uvedené v seznamu použitých pramenů odpovídá náročnosti studijní etapy. Tato literatura je v technické zprávě odkazována a vše je dle normy v pořádku. K porušení citační etiky nedošlo. | |
| Realizační výstup | 94 | Realizačním výstupem je konzolová aplikace, která má na vstupu libovolnou webovou stránku obsahující informace o produktu, a po aplikaci naučené grafové neuronové sítě z této stránky jsou extrahovány základní informace (název produktu, cena atd.). Úspěšnost této metody je více než 95%, což bylo ověřeno díky rozsáhlým experimentům. | |
| Využitelnost výsledků | Práce je zcela jistě přínosná, ukázala, že využití grafových neuronových sítí v kombinaci se segmentací webových stránek založené na vizuální struktuře je úspěšnější než podobný postup založený na modelu DOM. Myslím si, že by výsledky mohly být základem pro vědeckou publikaci. |
eVSKP id 144822