DULÁK, J. Simulace kybernetických útoků a tvorba datových sad pro detekci anomálií v logových záznamech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.

Posudky

Posudek vedoucího

Safonov, Yehor

Student úspěšně splnil cíle bakalářské práce, provedl důkladnou rešerši a zpracoval identifikované datové sady vhodné pro optimalizaci procesu zpracování a detekci anomálií záznamů bezpečnostních událostí. Praktická část byla zaměřena na tři hlavní přístupy k získávání dat: zpracování veřejně dostupných datových sad, generování vlastní anomální datové sady v experimentálním prostředí a vytvoření třetí sady na základě reverzního inženýrství parserů vybraného SIEM řešení. V teoretické části student popsal klíčové komponenty a výzvy spojené s realizací bezpečnostního monitoringu a podrobně analyzoval formáty a kategorie logových záznamů. Dále se věnoval problematice strojového učení (viz kapitola 2.2) a přístupům k detekci anomálií. V rámci rešerše identifikoval více než 50 relevantních veřejných datových sad, které přehledně shrnul v kapitole 3.1.3. Zaměřil se také na kvalitativní hodnocení dat, přítomnost anomálií, jejich strukturu a formát. Daný přistup umožnil efektivně odstranit chybná data a redukovat šum. Během semestru student pravidelně konzultoval a prezentoval dosažené výsledky. Prokázal schopnost práce s odbornou literaturou a v práci uvedl celkem 93 použitých zdrojů. Práce je logicky a správně strukturovaná, s řádným citováním všech použitých materiálů. Za jednu z nejzdařilejších částí práce považuji filtraci duplicitních záznamů pomocí algoritmu LSH MinHash, vlastní návrh procesu verzování datových souborů pomocí nástroje DVC a inverzní zpracování SIEM dekodérů, které přesahuje původní zadání práce. Výsledkem bylo získání 52 733 unikátních logových záznamů s pokrytím 333 unikátních zdrojů logů. Pozitivně hodnotím porovnání nástrojů pro simulaci útoků (PurpleSharp, Caldera, Atomic Red Team) s ohledem na jejich pokrytí podle MITRE ATT&CK (viz str. 36). Student použil nástroj Caldera ve spojení s nástrojem Vagrant pro správu virtuálního prostředí a technologii Wazuh pro pokročilou detekci anomálií. V závěrečné části se student věnoval normalizaci dat a trénování modelů pro úlohu rozpoznávání logových entit (NER). Slabší stránkou práce jsou místy přítomné gramatické a typografické chyby (např. na str. 63 a 64) a poměrně stručný technický popis vlastní datové sady s vygenerovanými útoky. Z důvodu rozsáhlé a velmi zdařilé praktické části, zpracování velkého množství datových zdrojů a inovativního přístupu k filtraci a verzování dat navrhuji finální hodnocení A (97 bodů).

Navrhovaná známka
A
Body
97

Posudek oponenta

Ilgner, Petr

Předložená bakalářská práce se zabývá simulací kybernetických útoků a vytvořením datových sad určených pro trénování neuronových sítí k detekci anomálií v logových záznamech. Toto zadání je obtížnější, avšak lze konstatovat, že bylo studentem splněno velmi zdařile. V praktické části se autor zaměřil na analýzu veřejných datových sad a doplnil je také vlastními záznamy získanými při simulaci útoků. Byla navržena a solidně popsána komplexní metodika jejich zpracování. Uvítal bych více informací o použitém modelu GPT (nesprávně je uvedeno "ChatGPT API"), bylo by vhodné diskutovat budoucí stálost výsledků či propustnost API. Pro účely vytvoření modelu však považuji zvolený přístup za dostatečný. Po formální stránce je práce na velmi dobré úrovni, je dobře a logicky členěna. Práce s literaturou je v pořádku, autor vychází z 50 převážně odborných zdrojů a dokumentace. Bohužel se v práci překlepy a jiné gramatické chyby, po typografické stránce je pak na dobré úrovni. Celkově považuji práci za velmi dobrou a navrhuji hodnocení A/96 b.

Navrhovaná známka
A
Body
96

Otázky

eVSKP id 167346