Porovnání klasifikačních metod pro účely detekce maligních domén
Loading...
Date
Authors
Polišenský, Jan
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato práce se zaměřuje na detekci škodlivých domén pomocí metod strojového učení a porovnává výkonnost různých klasifikátorů, včetně neuronových sítí, metody podůrných vektorů a stromových algoritmů. Hlavním přínosem je návrh vícestupňové klasifikační pi- peline s rozhodovacím metamodulem, která dosáhla skóre macro-F1 0,984; konkrétně skóre F1 0,985 pro phishing a 0,980 pro malware. Navržené řešení bylo úspěšně ověřeno na nezávislé testovací sadě a porovnáno s repli- kovanými přístupy z literatury. Ve všech sledovaných kategoriích dosahuje výrazně lepších výsledků než existující metody. Klíčovým faktorem úspěchu je využití rozsáhlého vektoru 176 příznaků kombinujících informace z více domén (TLS, DNS, RDAP, GeoIP a lexi- kální analýza), který umožňuje detailnější popis charakteristik domén. Přístup založený na kombinaci různých klasifikátorů dále přispívá k robustnosti a potvrzuje jeho vhodnost pro praktické nasazení v oblasti kybernetické bezpečnosti.
This thesis focuses on detecting malicious domains using machine learning methods and compares the performance of various classifiers, including neural networks, support vector machines, and tree-based algorithms. Its main contribution is the design of a multi-stage classification pipeline with a decision meta-model, which achieved an excellent macro-F1 score of 0.984; specifically, an F1 score of 0.985 for phishing and 0.980 for malware. The proposed solution was successfully validated on an independent test set and com- pared with replicated approaches from prior research. It significantly outperforms existing methods across all categories. A key factor in this success is the use of a rich 176-dimensional feature vector combining information from TLS, DNS, RDAP, GeoIP, and lexical analysis, allowing for a more precise characterization of domain behavior. The ensemble strategy based on combining multiple classifiers further enhances the robustness of the system and confirms its applicability for real-world cybersecurity deployment.
This thesis focuses on detecting malicious domains using machine learning methods and compares the performance of various classifiers, including neural networks, support vector machines, and tree-based algorithms. Its main contribution is the design of a multi-stage classification pipeline with a decision meta-model, which achieved an excellent macro-F1 score of 0.984; specifically, an F1 score of 0.985 for phishing and 0.980 for malware. The proposed solution was successfully validated on an independent test set and com- pared with replicated approaches from prior research. It significantly outperforms existing methods across all categories. A key factor in this success is the use of a rich 176-dimensional feature vector combining information from TLS, DNS, RDAP, GeoIP, and lexical analysis, allowing for a more precise characterization of domain behavior. The ensemble strategy based on combining multiple classifiers further enhances the robustness of the system and confirms its applicability for real-world cybersecurity deployment.
Description
Keywords
maligní domény , detekce , strojové učení , neuronové sítě , SVM , phishing , malware , malicious domains , detection , machine learning , neural networks , SVM , phishing , malware
Citation
POLIŠENSKÝ, J. Porovnání klasifikačních metod pro účely detekce maligních domén [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Kybernetická bezpečnost
Comittee
prof. Ing. Tomáš Hruška, CSc. (předseda)
Ing. Vladimír Bartík, Ph.D. (člen)
doc. Mgr. Adam Rogalewicz, Ph.D. (člen)
Ing. Vladimír Veselý, Ph.D. (člen)
Ing. Jan Pluskal, Ph.D. (člen)
Ing. Tomáš Goldmann, Ph.D. (člen)
Date of acceptance
2025-06-23
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
