Aplikace pokročilých technik rozšíření datových sad integrujících metody strojového učení pro účely syntaktické analýzy bezpečnostních logů

Loading...
Thumbnail Image

Date

Authors

Foltyn, Ondřej

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

ORCID

Abstract

V moderních systémech správy bezpečnostních informací a událostí představuje zpracování bezpečnostních záznamů velkou výzvu, zejména kvůli jejich často nestrukturovanému charakteru. Na rozdíl od běžných textů vykazují záznamy událostí specifickou strukturu vět a obsahují informace specifické pro oblast kybernetické bezpečnosti. Tyto rozdíly významně komplikují implementaci tradičních technik rozšiřování dat, které pak často mohou narušit sémantickou integritu a narušit klíčové kontextové vazby nezbytné pro efektivní analýzu. Navzdory rostoucímu zájmu o integraci metod hlubokého učení do oblasti bezpečnostního monitorování zůstává problematika datové augmentace v oblasti bezpečnostních záznamů nedostatečně prozkoumaná, s omezeným množstvím dostupných publikací zabývající se tímto tématem. Tato práce se proto zabývá návrhem, implementací a validací pokročilých metod rozšíření dat založených na aplikaci jazykových modelů. V této práci je představen nástroj pro augmentaci záznamů událostí, který aplikuje různé techniky generování textu pro syntetické rozšíření specifických metadat (tzv. metaklíčů) s důrazem na zachování sémantických vazeb a doménové relevance. Pro rozšíření specifických metaklíčů maskovaných entit záznamů bylo testováno sedm jazykových modelů založených na architektuře Transformer. Konkrétně byly testovány čtyři modely typu Masked Language Modeling (MLM) a tři generativní modely typu Next Word Prediciton (NWP). Tyto modely byly v prvních krocích laděny na relevantních datech a následně testovány na vytvořené datové sadě a datové sadě obohacené o simulované bezpečnostní záznamy generované nástrojem Atomic Red Team. Validace augmentačních metod byla provedena na úlohách z oblasti zpracování přirozeného jazyka (NLP). Samotné testování potvrzuje rostoucí potenciál velkých jazykových modelů pro inteligentní augmentaci bezpečnostních záznamů a cílené rozšiřování doménově specifických metadat.
In modern security information and event management systems, the processing of security records is a major challenge, especially due to their often unstructured nature. In contrast to regular text, event records exhibit a specific sentence structure and contain information specific to the cybersecurity domain. These differences significantly complicate the implementation of traditional data augmentation techniques, which in turn can often compromise semantic integrity and break key contextual links necessary for effective analysis. Despite the growing interest in integrating deep learning methods into the field of security monitoring, the issue of data augmentation in security records remains under-researched, with a limited number of publications available addressing this topic. Therefore, this paper addresses the design, implementation and validation of advanced data augmentation methods based on the application of language models. In this work, an event record augmentation tool is presented that applies different text generation techniques to synthetically augment specific metadata (called meta-keys) with an emphasis on preserving semantic links and domain relevance. Seven language models based on the Transformer architecture were tested for the extension of specific metakeys of masked record entities. Specifically, four Masked Language Modeling (MLM) models and three generative Next Word Prediciton (NWP) models were tested. These models were tuned on relevant data in the first steps and then tested on a created dataset and a dataset enriched with simulated security records generated by the Atomic Red Team tool. Validation of the augmentation methods was performed on natural language processing (NLP) tasks. The testing itself confirms the growing potential of large-scale language models for intelligent augmentation of security records and targeted extension of domain-specific metadata.

Description

Citation

FOLTYN, O. Aplikace pokročilých technik rozšíření datových sad integrujících metody strojového učení pro účely syntaktické analýzy bezpečnostních logů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

bez specializace

Comittee

prof. Ing. Radim Burget, Ph.D. (předseda) doc. Ing. Rastislav Róka, Ph.D. (místopředseda) Ing. Tomáš Gerlich (člen) Ing. Ondřej Krajsa, Ph.D. (člen) Ing. Jan Skapa, Ph.D. (člen) Ing. Róberta Hlavatá, Ph.D. (člen) JUDr. Mgr. Jakub Harašta, Ph.D. (člen)

Date of acceptance

2025-06-09

Defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta. Otázky oponenta: 1) Myslíte si, že jsou rovnoměrně rozložené B- a I-entity v rámci celé datové sady vzhledem k finální přesnosti modelů přesahující 99 %? 2) Kolik bylo kategorií zdrojů logů při trénování vlastních modelů? Otázky komise: 1) Jaké okno souvislostí je možné pokrýt? 2) Které modely by bylo vhodné použít? 3) Srovnání MobileBERT a DeepSeek (nároky na hardware)? 4) Na čem je model MobileBERT založen?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO