HORÁK, A. Detekce škodlivých domén na základě externích zdrojů dat [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Hranický, Radek

Pan Horák se k řešení zadaného problému postavil zodpovědně. Jako vedoucí zde vidím snahu studenta vytvořit dílo využitelné v praxi, neboť svou práci konzultoval nejen s vedoucím a řešiteli projektu FETA, ale také s aplikačním garantem. Výsledkem je velice kvalitní DP, která obsahuje též rozšíření nad rámec zadání. Své dílo student prezentoval na konferenci Excel a také zveřejnil jako open-source. Výsledky práce budou zahrnuty jako součást širšího řešení pro obranu kritické infrastruktury v kybernetickém prostoru ČR. S ohledem na výše uvedené doporučuji hodnocení "A". V případě, že oponent dojde k obdobnému závěru, doporučuji zvážit nominaci na cenu děkana FIT.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Práce souvisí s projektem MV ČR FETA, aplikační garant MO ČR. Cílem práce bylo zhodnotit využitelnost informací z externích zdrojů (DNS, RDAP, TLS aj.) pro účely detekce maligních domén. Jako případ užití si student zvolil detekci phishingových domén, což považuji za adekvátní tématu. Zadání bylo splněno v plném rozsahu. Nad rámec zadání student navíc realizoval optimalizaci hyperparametrů XGBoost pomocí Grid search a také studii výkonnosti samotné klasifikace.
Práce s literaturou Student využil doporučené literatury a další si samostatně dohledal. Celkem cituje 40 zdrojů, vesměs kvalitní odborné literatury. Kvalita i kvantita použitých zdrojů je pro diplomovou práci vysoce nadprůměrná.
Aktivita během řešení, konzultace, komunikace Student byl při řešení práce velmi aktivní a své řešení v průběhu celého akademického roku důsledně konzultoval. Termíny dodržoval bezchybně a na konzultace vždy docházel připraven. Oceňuji především systematický přístup a samostatnost při analýze a výběru vhodných metod. Např. studentův vyběr metody SHAP považuji za velmi vhodný pro řešený problém.
Aktivita při dokončování Realizační výstup i technická zpráva byly dokončeny a předány vedoucímu ke kontrole ve výrazném předstihu. Pan Horák mé připomínky následně zapracoval a i finální práci odevzdal v předstihu. Oceňuji zodpovědnost a time management studenta, který souběžně věnoval čas také tvorbě příspěvku na konferenci Excel.
Publikační činnost, ocenění Student prezentoval své dílo na konferenci Excel@FIT. Zdrojové kódy také zveřejnil jako open-source na portálu Github pod licencí MIT. V případě úspěšného složení SZZ pan Horák projevil zájem na rozvoji řešení dále pracovat při doktorském studiu na FIT VUT. Řešitelé projektu FETA očekávají v průběhu roku 2023 zahrnutí poznatků pana Horáka do článku na seriózní vědeckou konferenci, příp. do vědeckého žurnálu.
Navrhovaná známka
A
Body
97

Posudek oponenta

Ryšavý, Ondřej

Práce je kvalitně zpracovaná a přináší praktické výsledky v podobě kolekce nástrojů pro zpracování datových zdrojů a tvorbu datových sad pro analýzu škodlivosti doménových jmen. Důkladná analýza příznaků a vyhodnocení jejich přínosu pro klasifikační model je doplněna o relevantní a přesné teoretické informace k navrženému řešení. Výsledky práce jsou dále použitelné v bezpečnostních projektech na internetu. Práce obsahuje minimum nedostatků, které neovlivňují její kvalitu.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Práce se zabývá metodami detekce škodlivý domén, což je téma aktuálního výzkumu. Zadání požaduje nejen nastudování existujících přístupů, ale především navržení klasifikačního modelu, což zahrnuje pokročilé výzkumné a vývojové aktivity. 
Rozsah splnění požadavků zadání Body zadání byly splněny a jsou v práci řádně uvedeny.
Rozsah technické zprávy Práce má rozsah 86.75 normostránek.
Prezentační úroveň technické zprávy 90 Práce má logické uspořádání, kde kapitola 2 představuje existující techniky pro detekci a informování o škodlivých doménách, kapitola 3 se zaměřuje na externí zdroje informací o doménách, kapitola 4 probírá nástroje pro klasifikaci a zkoumání rysů dat, kapitola 5 se věnuje sběru dat pro tvorbu datové sady, kapitola 6 se zabývá zpracováním dat pro trénování modelů strojového učení, kapitola 7 popisuje experimenty a kapitola 8 shrnuje celou práci. Obsah jednotlivých kapitol je relevantní vzhledem k tématu práce a většinou podám vhodným způsobem včetně úrovně detailu. V kapitole 3 by pomohl obrázek/tabulka shrnující jaké typy informací lze získat z různých zde uváděných zdrojů využitelných pro klasifikaci. Text celkově poskytuje relevantní informace. Zřídka se objevují nepřesné nebo nejednoznačné formulace, například v úvodu kapitoly 4 by se mohlo zdát, že XGBoost je primárně technika pro vyhodnocení důležitosti příznaků/rysů.  Vysvětlení principů SHAP je poněkuď komplikované a i přes uvedené není grafické znázornění hodnot důležitosti příznaků příliš zřejmé. 
Formální úprava technické zprávy 90 Jazyková stránka práce je na velmi dobré úrovni. Autor používá styl, který je pro tento typ dokumentu běžný. Občas se objevují drobné stylistické nedostatky (opakující se slova ve větě, složitější formulace), které však neruší celkový dojem a především srozumitelnost textu.  V typografii se objevují drobné nedostatky, například zbytečná bílá míst při umisťování obrázků na stránce. 
Práce s literaturou 95 Autor se ve své práci odkazuje na větší množství zdrojů (40). Převzaté informace jsou v textu řádně vyznačeny. Většina z těchto zdrojů jsou  vědecké příspěvky související s tématem práce. Podobnost dle theses.cz je pouze 1,3% a tudíž lze konstatovat, že text je původní.
Realizační výstup 95 Výstupem je kolekce softwarových nástrojů, které tvoří souvislou pipeline pro získávání primární doménových dat, doplnění o další relevantních informace z různých zdrojů, následované předzpracováním do podoby vhodné jako vstup pro algoritmy strojového učení. Samotná analýza dat je provedena pomocí Jupyter Notebooků, které obsahují nejen kód pro učení a vyhodnocení modelů, ale jsou také doplněny vhodnými komentáři.  Nástroje jsou implementovány v jazyce Python a jsou plně funkční doplněné o potřebnou dokumentaci a příklady použití. Zdrojový kód je dostatečně dokumentovaný a je možné jej dále upravovat a rozšiřovat. Celkově se jedná o kvalitně zpracovaný realizační výstup, který splnil požadavky zadání a je dále využitelný i pro jiné než předvedené experimenty. 
Využitelnost výsledků Výsledky jsou dále použitelné, neboť všechny implementované nástroje jsou dostatečně otestované, dokumentované a pomocí vstupních parametrů konfigurovatelné pro různé případy použití. Kromě závislosti na databázovém systému je k jejich provozu nutné pouze Python prostředí, což umožňuje jejich snadné použití.
Navrhovaná známka
A
Body
90

Otázky

eVSKP id 146391