KAPIŠINSKÝ, M. Detekce škodlivého softwaru v komunikaci TLS [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Matoušek, Petr

Předložená práce splňuje zadání, nicméně výsledné řešení není obecně použitelné pro detekci škodlivého softwaru v šifrované komunikaci. V práci chybí popis a zdůvodnění výběru parametrů použitých detekčních metod, podrobnější diskuze nad získanými výsledky a vyhodnocení použitelnosti detekce v reálném provozu. Práci hodnotím stupněm D, uspokojivě.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Cílem práce bylo vytvořit datasety obsahující komunikaci škodlivého softwaru a navrhnout způsob detekce malwaru v šifrované komunikaci TLS. Vzorky škodlivé komunikace měl student získat z veřejných datasetů a vlastních experimentů v sandboxu. Pro detekci malware v šifrované komunikaci použil student dvě metody strojového učení: náhodný les (random forest) a izolovaný les (isolation forest). Návrh detekce i její vyhodnocení jsou však zpracovány v minimalistické formě.
Práce s literaturou Student využíval doporučenou literaturu i vlastní zdroje.
Aktivita během řešení, konzultace, komunikace Aktivita během řešení byla nárazová, velkou část letního semestru strávil student testováním různých atributů spojení TLS a k části detekce a vyhodnocení experimentů se dostal až v závěru semestru.
Aktivita při dokončování Finální verze nebyla konzultována.
Publikační činnost, ocenění Práce nebyla publikována.
Navrhovaná známka
D
Body
60

Posudek oponenta

Ryšavý, Ondřej

Student splnil zadání projektu. Výsledky řešení nicméně zaostávají za potenciálem práce. Vytvořené datové sady svou velikostí a charakterem tak spíše než pro vytvoření prakticky použitelných klasifikátoru slouží pro demonstraci navrženého přístupu. V práci také není dostatečně zdůvodněn výběr rysů (features) použitých pro klasifikaci, ani proč byly zvoleny uvedené metody, krom tvrzení, že obvykle dávají dobré výsledky. Nejslabší částí práce je realizační výstup, který tak výrazně přispívá k celkovému hodnocení práce.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadání požadovalo vytvoření vlastních datových sad komunikace malware a jejich analýzu pomocí zvolených detekčních metod. Vzhledem k dostupnosti potřebných nástrojů, možnosti automatizace dílčích úloh a použití známých algoritmů strojového učení pro detekci se jedná o průměrné obtížné zadání. 
Rozsah splnění požadavků zadání Zadání bylo splněno minimální způsobem. Zejména vytvoření vlastní datové sady bylo provedeno pouze pro jednotky vzorků malware. Taktéž pro neškodný šifrovaný provoz nebyl vytvořen dostatečně reprezentativní dataset, což se negativně projevilo na výsledcích experimentů. Popis nasazení v reálném prostředí je velmi krátce uveden v kapitole 6.5.
Rozsah technické zprávy Přepočtený počet normostran je 69.43 což je méně než obvyklé rozmezí, ale dostatečně splňuje minimální požadavky.
Prezentační úroveň technické zprávy 75 Práce logickým způsobem popisuje jednotlivé oblasti řešení projektu. Obsah je relevantní řešené problematice. Zpracování kapitoly 3, která poskytuje přehled existující přístupů je spíše sekvenčně seřazený přehled vybraných prací než analýza současného stavu. Některé z uvedených popisů nejsou bez dalších informací pochopitelné. Popis nasazení v reálném prostředí (kapitola 6.5) je nedostatečný.
Formální úprava technické zprávy 85 Práce je psána v angličtině a neobsahuje výrazné gramatické chyby. Text je srozumitelný, i když formulace některých vět by šlo vylepšit. Typograficky je práce v pořádku.
Práce s literaturou 70 Práce používá řádně převzaté zdroje. Výsledek testu podobnosti na theses.cz je 12%, nicméně uvedené stejné části jsou v definicích, popisech protokolů a převzatých příkladech. Text se tak zdá být původní. Autor používá vhodné zdroje a informace z nich jsou v textu řádně označeny. Nedostatkem se může jevit velké množství převzatých (ale odkazovaných) obrázků.
Realizační výstup 55 Realizačním výstupem je několik jednoúčelových Python skriptů (v práci odkazované jako malware detection tool), které umožňují zpracovat vstupní Pcap soubory, extrahovat rysy a vytvořit a použít klasifikační model. Na uvedených datových sadách tyto nástroje poskytují prezentované výsledky.  Zdrojové soubory nejsou dokumentované ani označeny autorem. Zhruba polovina souboru analyzer.py je zakomentovaný kód. Jejich další využití či úprava je omezena a posloužily autorovi práce pro získání prezentovatelných výsledků.  Na přiloženém médiu jsou vytvořené datové sady pouze jako CSV.  
Využitelnost výsledků Dílčí poznatky je možné dále využít pro další vývoj klasifikátorů. Vytvořené datové sady by bylo nutné rozšířit o další vzorky malware a také o další neškodný provoz, tak aby byly dostatečně reprezentativní.
Navrhovaná známka
D
Body
65

Otázky

eVSKP id 146194