Srovnání metod pro detekci anomálií v log datech
Loading...
Date
Authors
Sedláček, Ondřej
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Výzkum detekce anomálií v datech systémových logů naráží na problémy se srovnatelností rozmanitých metod napříč různými reprezentacemi a úrovněmi supervize. Tato práce představuje experimentální pipeline navrženou k systematickému vyhodnocení a porovnání těchto detekčních přístupů. Naše řešení využívá standardní datasety HDFS, BGL a Thunderbird a zahrnuje parsování logů, tvorbu sekvencí logů a automatizované vyhodnocování metod. Pipeline usnadňuje porovnání široké škály metod za zcela shodných podmínek. Experimentální výsledky ukázaly, že ačkoli metody učení s učitelem obecně dosahovaly nejlepších výsledků, metody učení bez učitele také ukázaly pozoruhodné výsledky na vybraných datových sadách. Zjistili jsme, že vlastnosti předzpracování, od přesnosti parsování logů po strategii pro seskupování do sekvencí logů, dramaticky ovlivnilo výsledky detekce. Porovnání výsledků na sekvenčně vzorkovaných datech, která lépe odpovídají reálnému nasazení oproti náhodně promíchaným datům, odhalilo výrazně vyšší rozptyl přesnosti a zhoršení výkonnostních metrik, což ukazuje problém generalizace z nereprezentativních trénovacích dat. Vyvinutá pipeline a komparativní analýza poskytují robustní rámec pro pochopení kompromisů jednotlivých metod a pro nasměrování budoucího výzkumu v oblasti detekce anomálií z logů. Veškerý zdrojový kód a konfigurace jsou navíc zveřejněny.
Anomaly detection research in log data faces challenges in consistently comparing diverse methods across varied representations and supervision levels. This thesis presents an experimental pipeline designed to systematically evaluate and benchmark these detection approaches. Our solution utilizes standard HDFS, BGL, and Thunderbird datasets and includes log parsing, session creation, and automated method evaluation. The pipeline facilitates comparing a wide range of methods under identical conditions. Experimental results revealed that while supervised methods generally performed best, unsupervised techniques demonstrated notable success on specific datasets. We found that preprocessing, including log parsing accuracy and session grouping strategies, dramatically influenced detection outcomes. Furthermore, evaluations on sequentially sampled data, more representative of real-world deployments, showed significantly increased performance variability and lower overall scores than evaluations on shuffled data, underscoring the challenge of generalizing from non-representative training splits. The developed pipeline and comparative analysis provide a robust framework for understanding method-specific trade-offs and guiding future research in log-based anomaly detection. Moreover, all code and configurations are released as an open benchmark.
Anomaly detection research in log data faces challenges in consistently comparing diverse methods across varied representations and supervision levels. This thesis presents an experimental pipeline designed to systematically evaluate and benchmark these detection approaches. Our solution utilizes standard HDFS, BGL, and Thunderbird datasets and includes log parsing, session creation, and automated method evaluation. The pipeline facilitates comparing a wide range of methods under identical conditions. Experimental results revealed that while supervised methods generally performed best, unsupervised techniques demonstrated notable success on specific datasets. We found that preprocessing, including log parsing accuracy and session grouping strategies, dramatically influenced detection outcomes. Furthermore, evaluations on sequentially sampled data, more representative of real-world deployments, showed significantly increased performance variability and lower overall scores than evaluations on shuffled data, underscoring the challenge of generalizing from non-representative training splits. The developed pipeline and comparative analysis provide a robust framework for understanding method-specific trade-offs and guiding future research in log-based anomaly detection. Moreover, all code and configurations are released as an open benchmark.
Description
Keywords
Citation
SEDLÁČEK, O. Srovnání metod pro detekci anomálií v log datech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Počítačové sítě
Comittee
doc. Ing. Petr Matoušek, Ph.D., M.A. (předseda)
prof. Ing. Tomáš Hruška, CSc. (člen)
Ing. Ondřej Lengál, Ph.D. (člen)
doc. Ing. Ondřej Ryšavý, Ph.D. (člen)
Ing. Martin Hrubý, Ph.D. (člen)
Ing. Vojtěch Mrázek, Ph.D. (člen)
Date of acceptance
2025-06-24
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázku oponenta a na další otázky přítomných, např. ohledně náplně publikace připravené na základě výsledků dosažených při řešení této diplomové práce či vizualizace separovatelnosti dat (anomálie vs normální data). Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.
Result of defence
práce byla úspěšně obhájena
