Datové sady pro síťovou bezpečnost

Setinský, Jiří

Datové sady pro síťovou bezpečnost

Files

final-thesis.pdf(3.51 MB)

review_148469.html(11.83 KB)

Authors

Setinský, Jiří

Advisor

Tisovčík, Peter

Referee

Hranický, Radek

Mark

A

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

V oblasti síťové bezpečnosti se používají techniky strojového učení pro efektivní detekci anomálií a malwaru v síťovém provozu. Pro natrénování síťového klasifikátoru s vysokou úspěšností je potřeba kvalitní datová sada. Cílem práce je modifikace datové sady pomocí metod strojového učení za účelem zlepšení kvality datové sady, která povede na natrénování modelu s vyšší úspěšností. Datová sada je zanalyzována shlukovacím algoritmem a každý shluk je charakterizován statistickým popisem vyplývající z atributů vstupní datové sady. Statistický popis spolu s informacemi o původním klasifikátoru je použit pro výpočet skóre. Skóre slouží jako váha při modifikační fázi. Shluková analýza umožní vyfiltrovat data, která jsou důležitá pro natrénování výsledného modelu. Navržený přístup umožňuje zmírnit redundanci datové sady a nebo ji rozšířit o chybějící data. Výsledkem je modifikační framework, který je schopen redukovat datové sady nebo provádět jejich agregaci za účelem vytvoření kompaktní datové sady, která bude reflektovat aktuální síťový provoz. Na vytvořených datových sadách se podařilo natrénovat modely dosahující vyšší úspěšnosti v porovnání s existujícím řešením.
In network security, machine learning techniques are used to effectively detect anomalies and malware in network traffic. A quality dataset is needed to train a network classifier with high accuracy. The aim of this paper is to modify the dataset using machine learning techniques to improve the quality of the dataset which will lead to training the model with a higher accuracy. The dataset is analyzed by a clustering algorithm and each cluster is characterized by a statistical description resulting from the attributes of the input dataset. The statistical description along with the information of the original classifier is used to compute the score. The score serves as a weight in the modification phase. Cluster analysis allows to filter out the data that are important for training the final model. The proposed approach allows us to mitigate the redundancy of the dataset or to augment it with missing data. The result is a modification framework that is able to reduce the datasets or perform their aggregation in order to create a compact dataset that reflects the actual network traffic. Models were trained on the created datasets and achieved higher accuracy compared to the existing solution.

Citation

SETINSKÝ, J. Datové sady pro síťovou bezpečnost [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Language of document

cs

Study field

Kybernetická bezpečnost

Comittee

doc. Dr. Ing. Petr Hanáček (předseda) prof. RNDr. Alexandr Meduna, CSc. (člen) doc. Ing. Jiří Jaroš, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) Ing. Ondřej Kanich, Ph.D. (člen) Mgr. Ing. Pavel Očenášek, Ph.D. (člen)

Date of acceptance

2023-06-22

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení