Posudky závěrečné kvalifikační práce

I přes zdržení při integraci do nástroje DomainRadar student nakonec všechny body zadání splnil. Klasifikátor je funkční a řešení je užitečné.

Dílčí hodnocení
Kritérium	Známka	Body	Slovní hodnocení
Informace k zadání			Práce souvisí s výzkumným projektem MV ČR FETA, VJ02010024. Cílem bylo vytvořit klasifikátor pro detekci maligních doménových jmen dle obsahu webové stránky. Student se rozhodl využít analýzy klíčových slov s využitím metody TF-IDF. S ohledem na řešený problém je takový přístup v pořádku. Následně bylo cílem klasifikátor do nástroje DomainRadar, který vznikl v rámci projektu FETA.
Práce s literaturou			Z neznámých důvodů student využil pouze jediného doporučeného zdroje. Dohledal si však další relevantní publikace.
Aktivita během řešení, konzultace, komunikace			Student byl během řešení aktivní, na konzultace docházel a řešení průběžně komunikoval.
Aktivita při dokončování			Samotný klasifikátor byl dokončen včas, avšak integrace do nástroje DomainRadar probíhala na poslední chvíli. Nakonec se to však studentovi podařilo. Práci mi odevzdal ke kontrole a obdržel připomínky k zapracování.
Publikační činnost, ocenění			Zdrojové kódy pro trénink a vyhodnocnování klasifikátoru pan Mazhirinov zveřejnil jako Open-source pod licencí MIT na portálu GitHub: https://github.com/Alisher0618/TF-IDF-classification-models Zároveň vytvořil několik Pull requestů do repozitářů jednotlivých modulů nástroje DomainRadar: https://github.com/nesfit/domainradar-clf/pull/2 https://github.com/nesfit/domainradar-infra/pull/1 https://github.com/nesfit/domainradar-colext/pull/7 https://github.com/nesfit/domainradar-training/pull/2

Posudek oponenta

Setinský, Jiří

Bakalářská práce je celkově na dobré úrovni. Autor úspěšně splnil všechny body zadání. Oceňuji zejména systematický přístup k řešení, počínaje tvorbou vlastního datasetu, přes pečlivý návrh a optimalizaci klasifikačních modelů až po jejich úspěšnou integraci do reálného nástroje DomainRadar a experimentální ověření přínosu. Dosažené výsledky (přesnost modelů a zlepšení detekčních schopností DomainRadaru) jsou velmi dobré. Práce má jasný praktický přínos a potenciál pro další rozvoj. Celkově hodnotím práci jako vynikající a doporučuji ji k obhajobě s hodnocením "A".

Dílčí hodnocení
Kritérium	Body	Slovní hodnocení
Náročnost zadání		Zadané téma mělo průměrnou úroveň náročnosti. Požadovaný rozsah práce byl odpovídající zvolenému tématu a obsahoval potřebné prvky pro splnění zadání. Úkoly byly jasně stanovené, ale jejich realizace vyžadovala samostatnou práci a analytické myšlení.
Rozsah splnění požadavků zadání		Zadání bylo splněno v plném rozsahu. Jednotlivé body byly zpracovány důkladně a do potřebné hloubky.
Rozsah technické zprávy		Hlavní text práce čítá 46 stran. Dle app.fit.vut.cz/normostrany práce vychází na 73 normostran. Rozsah je v obvyklém rozmezí.
Prezentační úroveň technické zprávy	90	Práce má jasnou a logickou strukturu, která dobře provádí čtenáře od teorie, přes popis nástrojů, tvorbu datové sady, návrh řešení, jeho integraci až po experimentální vyhodnocení. Kapitoly na sebe plynule navazují.Text je srozumitelný. Práce je doplněna relevantními obrázky (diagramy metodologie, grafy výsledků, ukázky GUI) a tabulkami, které přispívají k pochopení.
Formální úprava technické zprávy	89	Typografická stránka práce je na dobré úrovni, což lze očekávat při použití LaTeXu. Formátování textu, nadpisů a odstavců je konzistentní. Autor v prohlášení uvádí použití nástrojů Grammarly a DeepL, což pozitivně přispělo ke kvalitě jazykové stránky. Drobné nedostatky se vyskytují u popisů obrázků, kde chybí tečky na konci.
Práce s literaturou	90	Autor v práci odkazuje na 26 literárních pramenů. Seznam literatury zahrnuje vědecké články, konferenční příspěvky, technickou dokumentaci a online zdroje. Výběr pramenů je relevantní k řešenému tématu, pokrývá oblasti jako detekce phishingu, metody strojového učení, existující datasety a nástroje. Zdroje jsou přiměřeně aktuální a splňují citační etiku.
Realizační výstup	90	Realizačním výstupem práce je rozšíření nástroje DomainRadar o nové klasifikační modely založené na analýze obsahu webových stránek (metoda TF-IDF). Konkrétně byly vytvořeny a integrovány dva modely LightGBM – jeden pro detekci malwarových a druhý pro detekci phishingových domén. Funkčnost je demonstrována experimenty, kde je ukázán dopad integrace na celkové hodnocení domén v DomainRadar.
Využitelnost výsledků		Výsledky práce jsou přímo využitelné v praxi, jelikož navržené a implementované klasifikátory byly integrovány do DomainRadaru. Jak ukazují experimenty, integrace nových modelů zlepšila schopnost nástroje detekovat škodlivé domény na základě obsahu webových stránek. Práce přináší nové poznatky v kontextu aplikace TF-IDF a LightGBM modelů pro analýzu obsahu webových stránek (ačkoliv se primárně zaměřuje na anglický text).

Posudky

Posudek vedoucího

Hranický, Radek

Posudek oponenta

Setinský, Jiří

Otázky