EBERT, T. Detekce malware domén pomocí metod strojového učení [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Výsledky práce mají přínos v kontextu projektu FETA i v oblasti detekce maligních domén jako takové. Velkým přínosem je především vytvoření datové sady. Z hlediska tvorby klasifikátoru využil autor zavedené postupy z projektu FETA, které si přizpůsobil pro své potřeby detekce malware. Přesto však šlo jít dále a klasifikátor vyzkoušet např. na aktuálních datech z reálného provozu, analyzovat overfitting apod. Zadání bylo nicméně splněno v plném rozsahu. S přihlédnutím k aktivitě studenta a publikační činnosti navrhuji hodnocení stupněm "B".
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Práce souvisí s projektem MV ČR FETA. Cílem bylo vytvořit klasifikátor webových stránek, které obsahují malware. Pan Ebert využil stávající přístupy z projektu FETA, které sloužily pro detekci phishingu, následně je přizpůsobil pro detekci malware a aplikoval je na novou datovou sadu, kterou sám vytvořil. Klasifikační model následně optimalizoval a vyhodnotil. Byť se jedná o netriviální problematiku, zadání hodnotím jako průměrně obtížné, s přihlédnutím na skutečnost, že autor mohl vycházet z existujících zavedených postupů na projektu FETA. | ||
Práce s literaturou | Student využil doporučené literatury a další relevantní zdroje si samostatně dohledal. | ||
Aktivita během řešení, konzultace, komunikace | Student byl během řešení aktivní, na schůzky docházel připraven a úkoly plnil v dohodnutých termínech. | ||
Aktivita při dokončování | Práce byla dokončena v dostatečném předstihu a její finální obsah jsem připomínkoval. | ||
Publikační činnost, ocenění | Student prezentovat výsledky své práce na konferenci Excel@FIT. Dále se podílí na tvorbě odborného článku do žurnálu Data in Brief, popisující datovou sadu, jejíž součástí budou data, které pan Ebert během řešení práce získal. Vytvořený klasifikátor, společně kódy pro trénink a vyhodnocení, student také zveřejnil na portálu GitHub: https://github.com/Norbatko/malware_domain_detector |
Student splnil zadání a dosáhl zajímavých výsledků, na které je možné navázat. Práci hodnotím kladně až na slabší prezentaci skrz text práce.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Zadání bylo průměrně obtížné. Student se musel seznámit s problematikou škodlivých domén, možnostmi její klasifikace a natrénovat klasifikátor. | ||
Rozsah splnění požadavků zadání | |||
Rozsah technické zprávy | Práce má okolo 70 normostran. | ||
Prezentační úroveň technické zprávy | 70 | Logická struktura práce v celkovém měřítku dává smysl, nicméně části práce jsou matoucí nebo zavádějící, např.: Na str. 19 student chybně definuje pojmy false positives, true negatives, atp. Na str. 20 student odůvodňuje použití F1 skóre, pokud "jedna datová sada je většího počtu", kde pravděpodobně chtěl mluvit o třídách. Na str. 21 zvláštní definice modelů. Student obecně přeskakuje v textu mezi popisováním teorie strojového učení a konkrétního API knihovny sklearn. V kapitole 7 student uvádí v tabulkách hodnoty hyperparametrů, které chce zkoušet, které nejsou odněkud zdůvodněné, navíc u poslední tabulky čistě jen uvádí, že "metoda vygenerovala na jeho počítači chybu", takže se hodnoty tedy ani nepoužily. | |
Formální úprava technické zprávy | 65 | Typograficky je práce místy nekonzistentní. Kapitalizace nadpisů: Feature E ngineering Statická a nalýza Vysvětlování zkratek: Registration Data Access Protocol (RDAP) TLS (Transport Layer Security) HTTP - poznámka pod čarou TCP - poznámka pod čarou "WHOIS (není to zkratka, jen se tento název píše kapitálkami)" API a funkce: summary plot - v uvozovkách normálním textem bar plot - monospace Dále práce obsahuje drobné jazykové nesrovnalosti a překlepy, např.: "Bral jsem FPR, protože malware třída je v mém případě třída , což je v..." - má pravděpodobně ve větě obsahovovat číslovku 0/1 (identifikátor třídy) "Bayesan Search" | |
Práce s literaturou | 90 | Samotné citované zdroje mi přijdou relevantní. Student cituje množství odborných publikací. U některých obrázků (byť asi překreslených) bych očekával původní zdroj, ze kterých se vycházelo (např. Obrázek 3.1, který je převzat z knihy). Mnou nepochopená byla taky sekce 6.2 o návrhu vektoru příznaků, která je prakticky celá psaná stylem, že dříve v textu nikde jinde nezmíněná "skupina FETA", řekla, že má být použit příznak X a Y, nebo že práce touto skupinou byla inspirována, nicméně žádná zmínka o skupině není, informace v ní nejsou odcitovány a z pohledu textu skupina působí jako orákulum. | |
Realizační výstup | 90 | Student rozšířil už existující databázi s příznaky o nové data, analyzoval, natrénoval model a vyhodnotil. Odevzdaná část je zdokumentovaná. Celkově mi přijde výstup v pořádku. | |
Využitelnost výsledků | Rozšířený dataset lze dále používat. Zároveň student provedl experimenty, na které lze navázat. |
eVSKP id 153699