MORESOVÁ, E. Detekce anomálií v záznamech systémových událostí pomocí strojového učení [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Práce splňuje základní parametry kladené na diplomové práce, tj. návrh a použití metody, zpracování dat a zhodnocení výsledků. Vybrané metody na daných datesetech nedosahují dobrých výsledků a je otázkou, proč tomu tak je. Nicméně celkové úsilí diplomantky na tématu považuji za dostačující a hodnotím práci stupně E, 55 bodů.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Součástí DP bylo navrhnout a implementovat systém pro detekci anomálií v logovacích souborech pomocí strojového učení. Jednalo se externí zadání pro firmu AT&T. Protože dataset od AT&T nebyl anotovaný, pracovala studentka i z dalšími datasety HDFS a LANL. Pro detekci použila metody Local Outlier Factor, DBSCAN a OPTICS. Vzhledem k problémům s přípravou dat, použitím vybraných metod a vyhodnocením výsledků bylo dokončení práce posunuto. Výsledná verze implementujte výše uvedené metody, nicméně výsledky detekce nejsou přesvědčivé. Protože nezbyl čas na důkladnější analýzu, je otázkou, zda příčinou špatné detekce je nevhodně vybraná metoda, zvolený způsob předzpracování dat či nastavení parametrů metody. | ||
Práce s literaturou | Studentka využívala doporučenou literaturu. | ||
Aktivita během řešení, konzultace, komunikace | Studentka byla v začátku řešení aktivní, nicméně v druhé části semestru práce se ukázalo, že použité metody k-means a XGBoost nedávají dobré výsledky a práce příliš nepostupovala. Následně studentka vybrala jiné metody pro detekci. Jejich příprava a použití trvaly dlouho, takže se nepodařilo řešení dotáhnout do použitelného výsledku. | ||
Aktivita při dokončování | Práce byla odevzdána až po termínu a její obsah jsem neměl možnost konzultovat. | ||
Publikační činnost, ocenění | Práce nebyla publikována. |
Zadání diplomové práce studentka podle mého názoru splnila průměrným způsobem. Navrhla a implementovala řešení, které je schopné detekovat některé typy anomálií, a přestože není ideální, tak je funkční. Proto navrhuji hodnocení stupněm C.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Zadání považuji za mírně obtížnější, protože systémové logy představují netriviální data pro dolování znalostí. Zároveň detekce anomálií představuje problém, který je obvykle komplikován mnoha faktory (shluky anomálií, anomálie příliš podobné běžným vzorkům apod.). | ||
Rozsah splnění požadavků zadání | |||
Rozsah technické zprávy | |||
Prezentační úroveň technické zprávy | 70 | Logická struktura technické zprávy je povětšinou dobrá a jednotlivé části na sebe dobře navazují. Výjimku představuje kapitola 2, kde uspořádání jednotlivých částí je poněkud chaotické. V práci bych také uvítala podrobnější zhodnocení dosažených výsledků a podrobnější popis toho, co vlastně v rámci implementační části práce vzniklo. | |
Formální úprava technické zprávy | 84 | Po jazykové stránce se jedná o kvalitní práci s pouze malým počtem chyb a překlepů. Po typografické stránce je práce v pořádku. | |
Práce s literaturou | 88 | Práci s literaturou hodnotím velmi kladně, studentka využila velké množství dostupných a kvalitních zdrojů. Převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah. | |
Realizační výstup | 67 | V rámci realizačního výstupu studentka implementovala sadu skriptů, které umožní předzpracování logů a následnou detekci anomálií v předzpracovaných datech pomocí tří různých metod. Vytvořené skripty jsou funkční a jsou schopné detekovat některé druhy anomálií. Lepšímu hodnocení brání to, že dvě ze tří použitých metody (LOF a DBSCAN) jsou vhodné spíše na statická data. Pro detekci anomálií v logovacích systémech by bylo vhodné vyzkoušet jejich varianty určené pro proudy dat. | |
Využitelnost výsledků | V rámci diplomové práce studentka ověřila použitelnost metod LOF, DBSCAN a OPTICS pro detekci anomálií v souborech logů. Z výsledků je zřejmé, že všechny tyto metody jsou schopné detekovat nějaký typ anomálií. Pro praxi by mohla být přímo použitelná pravděpodobně pouze metoda OPTICS. Pro metody LOF a DBSCAN by patrně bylo nutné přejít k jejich verzím určených pro proudy dat. Nicméně výsledky práce ukazují, že tyto metody mohou být pro detekci anomálií užitečné. |
eVSKP id 153382