MATUŠKA, M. Rozpoznání škodlivé síťové komunikace pomocí grafových neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
S obtížným zadáním se student popasoval velmi dobře. Jeho aktivní přístup v průběhu celého semestru byl příkladný a nemám co bych vytknul. Postupy a výsledky prezentované v práci jsou kvlalitní a umožňují navázání ve vědecké komunitě. Hodnotím za A.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Informace k zadání | Zadání práce klasifikuji jako náročné. Student musel připravit datovou sadu ze zachycené malware komunikace, kterou bylo nutné zpracovat, korektně oanotovat a zároveň profiltrovat. Následně bylo potřeba prozkoumat netradiční oblast přístupu k multiflow klasifikaci provozu pomocí grafových neuronových sítí. Jedná se o prozkoumání nového směru, kde student měl omezené množství zdrojů. Bylo tedy potřeba navrhnout nové přístupy k modelaci dat a adaptaci metod na tuto oblast. To se studentovi povedlo a s výsledky jsem spokojen. | ||
| Práce s literaturou | Student přistupoval aktivně ke studiu zadané problematiky a dohledával si vlastní odborné a vědecké zdroje. | ||
| Aktivita během řešení, konzultace, komunikace | Student byl aktivní v průběhu celého roku a samostatně a aktivně přistupoval k řešení zadané problematiky. Zároveň přicházel s vlastními nápady a postupy, které byly následně konzultovány na pravidelných schůzkách s vedoucím. | ||
| Aktivita při dokončování | Práce byla dokončena před odevzdáním, ale měl jsem možnost práci směřovat až do odevzdání práce. Dokončení před odevzdáním však bylo dáno pečlivostí studenta a neustálým vylepšováním. | ||
| Publikační činnost, ocenění | Práce je psána v anglickém jazyce a jedná se o prozkoumání nového směru přístupu ke klasifikaci síťového provozu pomocí multiflow. Zdrojové kódy jsou dostupné veřejně a po vypublikování práce je možné na výsledky navázat. Výsledky práce by mohly být dále publikovány i ve formě vědecké publikace. |
Diplomová práce se zaměřuje na inovativní přístup v oblasti detekce malwaru pomocí grafových neuronových sítí (GNN), což je v této oblasti dosud neprobádané téma. Student se vypořádal s náročným zadáním, které vyžadovalo jak teoretické studium, tak praktické seznámení s nástroji a technikami, přičemž úspěšně předpřipravil a analyzoval poskytnutou datovou sadu. Práce byla vypracována ve standardním rozsahu a je logicky strukturována. I když některé části textu obsahují drobné formulace, které by mohly být zpřesněny, celkový dojem z práce je pozitivní. Výsledky jsou prezentovány jasně a všechny uvedené informace jsou relevantní k tématu. Realizační výstup ve formě Python skriptů je funkční, přičemž ukazuje schopnost studenta aplikovat teoretické poznatky v praktických experimentálních podmínkách. Výsledky tohoto experimentu ukazují nové možnosti využití GNN pro analýzu malware rodin na základě síťových vzorců, což představuje hodnotný příspěvek v oblasti kybernetické bezpečnosti.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Náročnost zadání | Diplomová práce se zaměřuje na analýzu poskytnuté datové sady a návrh klasifikátorů malware rodin s použitím grafových neuronových sítí (GNN), což je zatím neprobádaný přístup v oblasti detekce malwaru. Student čelil náročné úloze, která vyžadovala hluboké porozumění teoretickým základům, nastudování potřebné literatury a seznámení se s vhodnými nástroji a technologiemi. Dále bylo nezbytné provést předběžnou filtraci datové sady, což představovalo další krok v procesu přípravy vstupních dat pro modelování. | ||
| Rozsah splnění požadavků zadání | Zadání bylo splněno v požadovaném rozsahu. Výsledky, které student dosáhl, by však mohly být doplněny o srovnání s existujícími metodami, které nevyužívají GNN, čímž by se získala lepší představa o přínosech a omezeních tohoto přístupu. Práce v tomto směru vychází z GNN modelu s Traffic Dispersion Graph reprezentací komunikujících uzlů, což je inovativní přístup, ale pro porovnání by bylo užitečné zahrnout benchmark s tradičními metodami. | ||
| Rozsah technické zprávy | Práce má rozsah 86 normostran, což odpovídá běžnému rozsahu diplomových prací. Text je dobře strukturovaný, všechny uvedené informace jsou relevantní k tématu a přehledně uspořádány. | ||
| Prezentační úroveň technické zprávy | 80 | Celkové uspořádání práce je logické a text je čitelný. Některé formulace by však mohly být přesnější, aby se předešlo nedorozuměním a zlepšila se čitelnost textu: Strana 4: V textu se uvádí, že bylo vytvořeno celkem 9 modelů, ale z kontextu vyplývá pouze 3 + 2 modely. Dále je zmíněn odkaz na "existing representation", ale není zcela jasné, co je tím myšleno. Strana 6: V části o DPI pro šifrovaný provoz se uvádí, že trpí sníženou výkonností, ale z kontextu to může vést k domněnce, že jde o výpočetní problém, což není zcela přesné. Strana 9: U MLP (vícevrstvých perceptronů) se používá termín "units", ale spíše by mělo být použito "nodes" nebo "neurons". Sekce 2.2.2: Popis principů CNN je uveden, ale vztah k řešenému problému není dostatečně objasněn. Sekce 2.3.2: Popis různých reprezentací síťových toků jako grafů by mohl být podrobnější, neboť jde o klíčovou část práce. Sekce 5.4: V textu dochází k záměně pojmů "validation set" a "test set", což by mělo být opraveno pro zajištění správné terminologie. | |
| Formální úprava technické zprávy | 90 | Diplomová práce má vhodnou formální úpravu a je napsána v anglickém jazyce, který je pro čtenáře srozumitelný. Některé věty by mohly být formulovány lépe, ale tyto nedostatky neovlivňují zásadně srozumitelnost textu. Všechny obrázky kromě obrázku 4.3 jsou dobře čitelné. Uvedení odkazu na obrázek na stráně 23 je chybné a na stránce 18 je duplikované slovo „resolves“. | |
| Práce s literaturou | 90 | Literatura použitá v práci je relevantní a dostatečná, jak co do počtu, tak i zaměření na konkrétní problém. Všechny citace jsou správně uvedeny a odpovídají požadavkům. | |
| Realizační výstup | 85 | Realizačním výstupem je soubor Python skriptů, který zpracovává vstupní data a provádí klasifikaci malware rodin za pomoci prostředí PyTorch. Zdrojový kód obsahuje potřebné komentáře a návod k použití. Ačkoliv chybí uvedení autora ve zdrojových souborech, je jasné, které soubory byly studentem vytvořeny. Celkově se jedná o experimentální implementaci, která slouží jako demonstrace uvedených přístupů v textu práce. | |
| Využitelnost výsledků | Výsledky této práce představují zajímavý experimentální přístup k aplikaci GNN pro klasifikaci malware rodin na základě vzorků síťové komunikace. Tento přístup je v oblasti detekce malwaru relativně nový a ukazuje nové možnosti v oblasti analýzy síťových toků, které jsou použity jako vstupní data. Tato práce ukazuje potenciál GNN pro analýzu kontextu ve formě síťových toků, což je významným přínosem v porovnání s existujícími metodami, které tento aspekt nezohledňují. |
eVSKP id 163740