Aplikace pokročilých technik rozšíření datových sad integrujících metody strojového učení pro účely syntaktické analýzy bezpečnostních logů

but.committeeprof. Ing. Radim Burget, Ph.D. (předseda) doc. Ing. Rastislav Róka, Ph.D. (místopředseda) Ing. Tomáš Gerlich (člen) Ing. Ondřej Krajsa, Ph.D. (člen) Ing. Jan Skapa, Ph.D. (člen) Ing. Róberta Hlavatá, Ph.D. (člen) JUDr. Mgr. Jakub Harašta, Ph.D. (člen)cs
but.defenceStudent prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta. Otázky oponenta: 1) Myslíte si, že jsou rovnoměrně rozložené B- a I-entity v rámci celé datové sady vzhledem k finální přesnosti modelů přesahující 99 %? 2) Kolik bylo kategorií zdrojů logů při trénování vlastních modelů? Otázky komise: 1) Jaké okno souvislostí je možné pokrýt? 2) Které modely by bylo vhodné použít? 3) Srovnání MobileBERT a DeepSeek (nároky na hardware)? 4) Na čem je model MobileBERT založen?cs
but.jazykčeština (Czech)
but.programInformační bezpečnostcs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSafonov, Yehorcs
dc.contributor.authorFoltyn, Ondřejcs
dc.contributor.refereeProkop, Šimoncs
dc.date.created2025cs
dc.description.abstractV moderních systémech správy bezpečnostních informací a událostí představuje zpracování bezpečnostních záznamů velkou výzvu, zejména kvůli jejich často nestrukturovanému charakteru. Na rozdíl od běžných textů vykazují záznamy událostí specifickou strukturu vět a obsahují informace specifické pro oblast kybernetické bezpečnosti. Tyto rozdíly významně komplikují implementaci tradičních technik rozšiřování dat, které pak často mohou narušit sémantickou integritu a narušit klíčové kontextové vazby nezbytné pro efektivní analýzu. Navzdory rostoucímu zájmu o integraci metod hlubokého učení do oblasti bezpečnostního monitorování zůstává problematika datové augmentace v oblasti bezpečnostních záznamů nedostatečně prozkoumaná, s omezeným množstvím dostupných publikací zabývající se tímto tématem. Tato práce se proto zabývá návrhem, implementací a validací pokročilých metod rozšíření dat založených na aplikaci jazykových modelů. V této práci je představen nástroj pro augmentaci záznamů událostí, který aplikuje různé techniky generování textu pro syntetické rozšíření specifických metadat (tzv. metaklíčů) s důrazem na zachování sémantických vazeb a doménové relevance. Pro rozšíření specifických metaklíčů maskovaných entit záznamů bylo testováno sedm jazykových modelů založených na architektuře Transformer. Konkrétně byly testovány čtyři modely typu Masked Language Modeling (MLM) a tři generativní modely typu Next Word Prediciton (NWP). Tyto modely byly v prvních krocích laděny na relevantních datech a následně testovány na vytvořené datové sadě a datové sadě obohacené o simulované bezpečnostní záznamy generované nástrojem Atomic Red Team. Validace augmentačních metod byla provedena na úlohách z oblasti zpracování přirozeného jazyka (NLP). Samotné testování potvrzuje rostoucí potenciál velkých jazykových modelů pro inteligentní augmentaci bezpečnostních záznamů a cílené rozšiřování doménově specifických metadat.cs
dc.description.abstractIn modern security information and event management systems, the processing of security records is a major challenge, especially due to their often unstructured nature. In contrast to regular text, event records exhibit a specific sentence structure and contain information specific to the cybersecurity domain. These differences significantly complicate the implementation of traditional data augmentation techniques, which in turn can often compromise semantic integrity and break key contextual links necessary for effective analysis. Despite the growing interest in integrating deep learning methods into the field of security monitoring, the issue of data augmentation in security records remains under-researched, with a limited number of publications available addressing this topic. Therefore, this paper addresses the design, implementation and validation of advanced data augmentation methods based on the application of language models. In this work, an event record augmentation tool is presented that applies different text generation techniques to synthetically augment specific metadata (called meta-keys) with an emphasis on preserving semantic links and domain relevance. Seven language models based on the Transformer architecture were tested for the extension of specific metakeys of masked record entities. Specifically, four Masked Language Modeling (MLM) models and three generative Next Word Prediciton (NWP) models were tested. These models were tuned on relevant data in the first steps and then tested on a created dataset and a dataset enriched with simulated security records generated by the Atomic Red Team tool. Validation of the augmentation methods was performed on natural language processing (NLP) tasks. The testing itself confirms the growing potential of large-scale language models for intelligent augmentation of security records and targeted extension of domain-specific metadata.en
dc.description.markAcs
dc.identifier.citationFOLTYN, O. Aplikace pokročilých technik rozšíření datových sad integrujících metody strojového učení pro účely syntaktické analýzy bezpečnostních logů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.cs
dc.identifier.other167295cs
dc.identifier.urihttp://hdl.handle.net/11012/251486
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectAugmentacecs
dc.subjectBERTcs
dc.subjectbezpečnostcs
dc.subjectgenerování textucs
dc.subjectjazykové modelycs
dc.subjectlogové záznamycs
dc.subjectmetody rozšířenícs
dc.subjectmodelování maskovaného jazykacs
dc.subjectSIEMcs
dc.subjectSOARcs
dc.subjectSplunkcs
dc.subjectTransformercs
dc.subjectumělá inteligencecs
dc.subjectzáznamy událostícs
dc.subjectArtificial intelligenceen
dc.subjectaugmentation methodsen
dc.subjectBERTen
dc.subjectevent logsen
dc.subjectlanguage modelsen
dc.subjectlog recordsen
dc.subjectmasked language modelingen
dc.subjectSIEMen
dc.subjectSOARen
dc.subjectSplunken
dc.subjecttext generationen
dc.subjectTransformeren
dc.titleAplikace pokročilých technik rozšíření datových sad integrujících metody strojového učení pro účely syntaktické analýzy bezpečnostních logůcs
dc.title.alternativeAdvanced Machine Learning-Enhanced Augmentation techniques for the Syntactic Analysis of Security Event Logsen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2025-06-09cs
dcterms.modified2025-06-12-08:44:13cs
eprints.affiliatedInstitution.facultyFakulta elektrotechniky a komunikačních technologiícs
sync.item.dbid167295en
sync.item.dbtypeZPen
sync.item.insts2025.08.27 02:03:21en
sync.item.modts2025.08.26 19:52:15en
thesis.disciplinebez specializacecs
thesis.grantorVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikacícs
thesis.levelInženýrskýcs
thesis.nameIng.cs

Files

Original bundle

Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
10.24 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.zip
Size:
26.88 KB
Format:
Unknown data format
Description:
file appendix-1.zip
Loading...
Thumbnail Image
Name:
review_167295.html
Size:
7.01 KB
Format:
Hypertext Markup Language
Description:
file review_167295.html

Collections