Rozšíření nástroje DomainRadar pro detekci škodlivých doménových jmen na základě obsahu webové stránky
Loading...
Date
Authors
Mazhirinov, Alisher
Advisor
Referee
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato bakalářská práce pojednává o metodách detekce phishingových, škodlivých a benigních domén na základě analýzy textového obsahu jejich webových stránek. Hlavní důraz je kladen na využití TF-IDF (Term Frequency - Inverse Document Frequency), metody, která umožňuje určit význam slov v dokumentech na základě jejich frekvence v textu a inverzní frekvence v celém datovém korpusu. Studie ukazuje, že obsah webových stránek obsahuje užitečné textové prvky, které lze použít k automatické klasifikaci domén. Na základě těchto vlastností byly vyvinuty a natrénovány modely klasifikátorů, které dosáhly přesností téměř 90% oba. Použití TF-IDF v kombinaci s metodami strojového učení umožňuje efektivně identifikovat phishing a škodlivé zdroje a také je odlišit od bezpečných domén. Výsledky potvrzují vysoký přínos analýzy textu při řešení problémů kybernetické bezpečnosti a lze je využít k vytvoření automatizovaných systémů pro monitorování a ochranu uživatelů na internetu.
This thesis discusses methods for detecting phishing, malicious, and benign domains based on the analysis of the text content of their webpages. The main focus is on the use of TF-IDF (Term Frequency - Inverse Document Frequency), a method that allows determining the significance of words in documents based on their frequency in the text and inverse frequency in the entire data corpus. The study shows that the content of web pages contains useful text features that can be used to automatically classify domains. Based on these features, two classifier models were developed, trained and achieved accuracies of almost 90% for both The use of TF-IDF in combination with machine learning methods allows you to effectively identify phishing and malicious resources, as well as distinguish them from benign domains. The results confirm the high benefit of text analysis in solving cybersecurity problems and can be used to create automated systems for monitoring and protecting users on the internet.
This thesis discusses methods for detecting phishing, malicious, and benign domains based on the analysis of the text content of their webpages. The main focus is on the use of TF-IDF (Term Frequency - Inverse Document Frequency), a method that allows determining the significance of words in documents based on their frequency in the text and inverse frequency in the entire data corpus. The study shows that the content of web pages contains useful text features that can be used to automatically classify domains. Based on these features, two classifier models were developed, trained and achieved accuracies of almost 90% for both The use of TF-IDF in combination with machine learning methods allows you to effectively identify phishing and malicious resources, as well as distinguish them from benign domains. The results confirm the high benefit of text analysis in solving cybersecurity problems and can be used to create automated systems for monitoring and protecting users on the internet.
Description
Keywords
TF-IDF , klasifikace textu , strojové učení , detekce phishingu , detekce malwaru , bezpečné weby , analýza obsahu webu , extrakce znaků , klasifikace dokumentů , automatický klasifikátor , analýza webových stránek , klasifikace domén , datová sada. , TF-IDF , text classification , machine learning , phishing detection , malware detection , benign websites , web content analysis , feature extraction , document classification , automatic classifier , web page analysis , domain classification , data set.
Citation
MAZHIRINOV, A. Rozšíření nástroje DomainRadar pro detekci škodlivých doménových jmen na základě obsahu webové stránky [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
doc. Ing. Petr Matoušek, Ph.D., M.A. (předseda)
Ing. Bohuslav Křena, Ph.D. (člen)
Ing. Jan Pluskal, Ph.D. (člen)
Ing. František Grézl, Ph.D. (člen)
Ing. Jiří Matoušek, Ph.D. (člen)
Date of acceptance
2025-06-19
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
Result of defence
práce byla úspěšně obhájena
