Srovnání metod pro detekci anomálií v log datech

Loading...
Thumbnail Image

Date

Authors

Sedláček, Ondřej

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Výzkum detekce anomálií v datech systémových logů naráží na problémy se srovnatelností rozmanitých metod napříč různými reprezentacemi a úrovněmi supervize. Tato práce představuje experimentální pipeline navrženou k systematickému vyhodnocení a porovnání těchto detekčních přístupů. Naše řešení využívá standardní datasety HDFS, BGL a Thunderbird a zahrnuje parsování logů, tvorbu sekvencí logů a automatizované vyhodnocování metod. Pipeline usnadňuje porovnání široké škály metod za zcela shodných podmínek. Experimentální výsledky ukázaly, že ačkoli metody učení s učitelem obecně dosahovaly nejlepších výsledků, metody učení bez učitele také ukázaly pozoruhodné výsledky na vybraných datových sadách. Zjistili jsme, že vlastnosti předzpracování, od přesnosti parsování logů po strategii pro seskupování do sekvencí logů, dramaticky ovlivnilo výsledky detekce. Porovnání výsledků na sekvenčně vzorkovaných datech, která lépe odpovídají reálnému nasazení oproti náhodně promíchaným datům, odhalilo výrazně vyšší rozptyl přesnosti a zhoršení výkonnostních metrik, což ukazuje problém generalizace z nereprezentativních trénovacích dat. Vyvinutá pipeline a komparativní analýza poskytují robustní rámec pro pochopení kompromisů jednotlivých metod a pro nasměrování budoucího výzkumu v oblasti detekce anomálií z logů. Veškerý zdrojový kód a konfigurace jsou navíc zveřejněny.
Anomaly detection research in log data faces challenges in consistently comparing diverse methods across varied representations and supervision levels. This thesis presents an experimental pipeline designed to systematically evaluate and benchmark these detection approaches. Our solution utilizes standard HDFS, BGL, and Thunderbird datasets and includes log parsing, session creation, and automated method evaluation. The pipeline facilitates comparing a wide range of methods under identical conditions. Experimental results revealed that while supervised methods generally performed best, unsupervised techniques demonstrated notable success on specific datasets. We found that preprocessing, including log parsing accuracy and session grouping strategies, dramatically influenced detection outcomes. Furthermore, evaluations on sequentially sampled data, more representative of real-world deployments, showed significantly increased performance variability and lower overall scores than evaluations on shuffled data, underscoring the challenge of generalizing from non-representative training splits. The developed pipeline and comparative analysis provide a robust framework for understanding method-specific trade-offs and guiding future research in log-based anomaly detection. Moreover, all code and configurations are released as an open benchmark.

Description

Citation

SEDLÁČEK, O. Srovnání metod pro detekci anomálií v log datech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Počítačové sítě

Comittee

doc. Ing. Petr Matoušek, Ph.D., M.A. (předseda) prof. Ing. Tomáš Hruška, CSc. (člen) Ing. Ondřej Lengál, Ph.D. (člen) doc. Ing. Ondřej Ryšavý, Ph.D. (člen) Ing. Martin Hrubý, Ph.D. (člen) Ing. Vojtěch Mrázek, Ph.D. (člen)

Date of acceptance

2025-06-24

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázku oponenta a na další otázky přítomných, např. ohledně náplně publikace připravené na základě výsledků dosažených při řešení této diplomové práce či vizualizace separovatelnosti dat (anomálie vs normální data). Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO