Efektivní rozsáhlý sběr informací o doménových jménech

Loading...
Thumbnail Image
Date
Authors
Ondryáš, Ondřej
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato práce představuje programové řešení poskytující rychlý sběr dat a extrakci příznaků pro účely detekce škodlivých doménových jmen s využitím strojového učení. Představuje výzkumný projekt FETA DomainRadar, jehož cílem je vývoj systému pro vyhodnocování škodlivosti doménových jmen. Pojednává o různých zdrojích informací, které se v této úloze osvědčily. Upřesňuje návrh tohoto systému a prezentuje jeho klíčovou část pro sběr a zpracování dat, kterou lze použít pro pro vyhodnocování doménových jmen zachycených v reálném čase v sítích s velkým provozem, ale také pro efektivní sestavování rozsáhlých trénovacích datových sad. Systém na bázi platformy Apache Kafka je navržen tak, aby umožňoval nasazení v distribuovaném prostředí, a byl tak horizontálně škálovatelný. Provedené experimenty ukazují významný nárůst propustnosti systému při kooperaci několika instancí. Systém zvládl nasbírat data z osmi externích zdrojů pro 400 000 doménových jmen přibližně za 4 hodiny, čímž dosáhl průměrné propustnosti 28 doménových jmen za sekundu. Poté byl nasazen v akademické síti CESNET, kde bez obtíží sbíral a zpracovával data pro 9,56 doménových jmen za sekundu.
This thesis presents a software solution that provides fast data collection and feature extraction for the purpose of detecting malicious domain names using machine learning. It introduces the FETA DomainRadar research project targeted at developing a system for assessing domain name maliciousness. It discusses various sources of information that proved helpful for the task. It elaborates the system's design and presents its crucial component for collecting and processing data that can be used to evaluate domain names captured in monitored high-traffic networks in real time and to build large training datasets effectively. Based on Apache Kafka, the system is designed to allow horizontal scalability in distributed deployments, with experiments showing massive improvements in throughput when multiple instances cooperate. The system collected data from eight external sources for 400,000 domain names in about 4 hours, reaching the average throughput of 28 domain names per second. It was deployed in the CESNET academic network, where it steadily collected and processed data at 9.56 domain names per second.
Description
Citation
ONDRYÁŠ, O. Efektivní rozsáhlý sběr informací o doménových jménech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Počítačové sítě
Comittee
doc. Ing. Richard Růžička, Ph.D., MBA (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (člen) Ing. Jaroslav Dytrych, Ph.D. (člen) doc. Ing. Lukáš Burget, Ph.D. (člen)
Date of acceptance
2024-08-28
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně propustnosti z pohledu počtu zpracovaných DNS jmen za sekundu či možností zrychlení prostřednictvím využití cache paměti. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázkyrozhodla práci hodnotit stupněm A - výborně.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO