MAZHIRINOV, A. Rozšíření nástroje DomainRadar pro detekci škodlivých doménových jmen na základě obsahu webové stránky [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Posudky

Posudek vedoucího

Hranický, Radek

I přes zdržení při integraci do nástroje DomainRadar student nakonec všechny body zadání splnil. Klasifikátor je funkční a řešení je užitečné.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Práce souvisí s výzkumným projektem MV ČR FETA, VJ02010024. Cílem bylo vytvořit klasifikátor pro detekci maligních doménových jmen dle obsahu webové stránky. Student se rozhodl využít analýzy klíčových slov s využitím metody TF-IDF. S ohledem na řešený problém je takový přístup v pořádku. Následně bylo cílem klasifikátor do nástroje DomainRadar, který vznikl v rámci projektu FETA.
Práce s literaturou Z neznámých důvodů student využil pouze jediného doporučeného zdroje. Dohledal si však další relevantní publikace.
Aktivita během řešení, konzultace, komunikace Student byl během řešení aktivní, na konzultace docházel a řešení průběžně komunikoval.
Aktivita při dokončování Samotný klasifikátor byl dokončen včas, avšak integrace do nástroje DomainRadar probíhala na poslední chvíli. Nakonec se to však studentovi podařilo. Práci mi odevzdal ke kontrole a obdržel připomínky k zapracování.
Publikační činnost, ocenění Zdrojové kódy pro trénink a vyhodnocnování klasifikátoru pan Mazhirinov zveřejnil jako Open-source pod licencí MIT na portálu GitHub: https://github.com/Alisher0618/TF-IDF-classification-models Zároveň vytvořil několik Pull requestů do repozitářů jednotlivých modulů nástroje DomainRadar: https://github.com/nesfit/domainradar-clf/pull/2 https://github.com/nesfit/domainradar-infra/pull/1 https://github.com/nesfit/domainradar-colext/pull/7 https://github.com/nesfit/domainradar-training/pull/2
Navrhovaná známka
C
Body
76

Posudek oponenta

Setinský, Jiří

Bakalářská práce je celkově na dobré úrovni.  Autor úspěšně splnil všechny body zadání. Oceňuji zejména systematický přístup k řešení, počínaje tvorbou vlastního datasetu, přes pečlivý návrh a optimalizaci klasifikačních modelů až po jejich úspěšnou integraci do reálného nástroje DomainRadar a experimentální ověření přínosu. Dosažené výsledky (přesnost modelů a zlepšení detekčních schopností DomainRadaru) jsou velmi dobré. Práce má jasný praktický přínos a potenciál pro další rozvoj. Celkově hodnotím práci jako vynikající a doporučuji ji k obhajobě s hodnocením "A".

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadané téma mělo průměrnou úroveň náročnosti. Požadovaný rozsah práce byl odpovídající zvolenému tématu a obsahoval potřebné prvky pro splnění zadání. Úkoly byly jasně stanovené, ale jejich realizace vyžadovala samostatnou práci a analytické myšlení.
Rozsah splnění požadavků zadání Zadání bylo splněno v plném rozsahu. Jednotlivé body byly zpracovány důkladně a do potřebné hloubky.
Rozsah technické zprávy Hlavní text práce čítá 46 stran. Dle app.fit.vut.cz/normostrany práce vychází na 73 normostran. Rozsah je v obvyklém rozmezí.
Prezentační úroveň technické zprávy 90 Práce má jasnou a logickou strukturu, která dobře provádí čtenáře od teorie, přes popis nástrojů, tvorbu datové sady, návrh řešení, jeho integraci až po experimentální vyhodnocení. Kapitoly na sebe plynule navazují.Text je srozumitelný. Práce je doplněna relevantními obrázky (diagramy metodologie, grafy výsledků, ukázky GUI) a tabulkami, které přispívají k pochopení. 
Formální úprava technické zprávy 89 Typografická stránka práce je na dobré úrovni, což lze očekávat při použití LaTeXu. Formátování textu, nadpisů a odstavců je konzistentní. Autor v prohlášení uvádí použití nástrojů Grammarly a DeepL, což pozitivně přispělo ke kvalitě jazykové stránky. Drobné nedostatky se vyskytují u popisů obrázků, kde chybí tečky na konci.
Práce s literaturou 90 Autor v práci odkazuje na 26 literárních pramenů. Seznam literatury zahrnuje vědecké články, konferenční příspěvky, technickou dokumentaci a online zdroje. Výběr pramenů je relevantní k řešenému tématu, pokrývá oblasti jako detekce phishingu, metody strojového učení, existující datasety a nástroje. Zdroje jsou přiměřeně aktuální a splňují citační etiku.
Realizační výstup 90 Realizačním výstupem práce je rozšíření nástroje DomainRadar o nové klasifikační modely založené na analýze obsahu webových stránek (metoda TF-IDF). Konkrétně byly vytvořeny a integrovány dva modely LightGBM – jeden pro detekci malwarových a druhý pro detekci phishingových domén. Funkčnost je demonstrována experimenty, kde je ukázán dopad integrace na celkové hodnocení domén v DomainRadar.
Využitelnost výsledků Výsledky práce jsou přímo využitelné v praxi, jelikož navržené a implementované klasifikátory byly integrovány do DomainRadaru. Jak ukazují experimenty, integrace nových modelů zlepšila schopnost nástroje detekovat škodlivé domény na základě obsahu webových stránek. Práce přináší nové poznatky v kontextu aplikace TF-IDF a LightGBM modelů pro analýzu obsahu webových stránek (ačkoliv se primárně zaměřuje na anglický text).
Navrhovaná známka
A
Body
90

Otázky

eVSKP id 162580