Detekce komunikace malware v síťových tocích
Loading...
Date
Authors
Korvas, Václav
ORCID
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato práce se zabývá problematikou síťové komunikace škodlivého kódu, způsoby jejich analýzy a především srovnáním přesností různých algoritmů strojového učení mezi sebou. Práce přináší srovnání přesnosti jednotlivých algoritmů strojového učení, jak na testovacích datech tak při použití v reálném provozu. Jako metriky pro vyhodnocení výsledků byla použita přesnost, F1-skóre a míra falešné pozitivity. Na testovacích datech se jako nejpřesnější ukázaly algoritmy Random Forest a XGBoost, které dosáhly přesnosti 99.2% s mírou falešné pozitivity 0.6%. Při experimentech v reálném provozu bylo přibližně 9% toků nesprávně detekováno a klasifikováno jako malware. Při napadení počítače pak míra klasifikovaných toků jako malware, vzrostla na 18% a k tomu bylo zachyceno několik indikátorů kompromitace, které toto napadení potvrdily.
This thesis deals with the issue of network communication of malicious code, methods of their analysis and especially the comparison of accuracy of different machine learning algorithms among themselves. The paper presents a comparison of the accuracy of different machine learning algorithms, both on test data and when used in real life. Accuracy, F1-score and false positive rate were used as metrics to evaluate the results. On the test data, the Random Forest and XGBoost algorithms were found to be the most accurate, achieving 99.2% accuracy with a rate of false positivity of 0.6%. In real-life experiments, approximately 9% of flows were incorrectly detected and classified as malware. When the computer was compromised, the rate of flows classified as malware increased to 18%, and several indicators of compromise were captured and confirmed the infection of the computer.
This thesis deals with the issue of network communication of malicious code, methods of their analysis and especially the comparison of accuracy of different machine learning algorithms among themselves. The paper presents a comparison of the accuracy of different machine learning algorithms, both on test data and when used in real life. Accuracy, F1-score and false positive rate were used as metrics to evaluate the results. On the test data, the Random Forest and XGBoost algorithms were found to be the most accurate, achieving 99.2% accuracy with a rate of false positivity of 0.6%. In real-life experiments, approximately 9% of flows were incorrectly detected and classified as malware. When the computer was compromised, the rate of flows classified as malware increased to 18%, and several indicators of compromise were captured and confirmed the infection of the computer.
Description
Citation
KORVAS, V. Detekce komunikace malware v síťových tocích [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. Ing. Ondřej Ryšavý, Ph.D. (předseda)
doc. Ing. Vladimír Drábek, CSc. (člen)
Ing. Bohuslav Křena, Ph.D. (člen)
doc. Ing. Vítězslav Beran, Ph.D. (člen)
Dr. Ing. Petr Peringer (člen)
Date of acceptance
2023-06-13
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení