Efektivní rozsáhlý sběr informací o doménových jménech

Loading...
Thumbnail Image

Date

Authors

Ondryáš, Ondřej

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce představuje programové řešení poskytující rychlý sběr dat a extrakci příznaků pro účely detekce škodlivých doménových jmen s využitím strojového učení. Představuje výzkumný projekt FETA DomainRadar, jehož cílem je vývoj systému pro vyhodnocování škodlivosti doménových jmen. Pojednává o různých zdrojích informací, které se v této úloze osvědčily. Upřesňuje návrh tohoto systému a prezentuje jeho klíčovou část pro sběr a zpracování dat, kterou lze použít pro pro vyhodnocování doménových jmen zachycených v reálném čase v sítích s velkým provozem, ale také pro efektivní sestavování rozsáhlých trénovacích datových sad. Systém na bázi platformy Apache Kafka je navržen tak, aby umožňoval nasazení v distribuovaném prostředí, a byl tak horizontálně škálovatelný. Provedené experimenty ukazují významný nárůst propustnosti systému při kooperaci několika instancí. Systém zvládl nasbírat data z osmi externích zdrojů pro 400 000 doménových jmen přibližně za 4 hodiny, čímž dosáhl průměrné propustnosti 28 doménových jmen za sekundu. Poté byl nasazen v akademické síti CESNET, kde bez obtíží sbíral a zpracovával data pro 9,56 doménových jmen za sekundu.
This thesis presents a software solution that provides fast data collection and feature extraction for the purpose of detecting malicious domain names using machine learning. It introduces the FETA DomainRadar research project targeted at developing a system for assessing domain name maliciousness. It discusses various sources of information that proved helpful for the task. It elaborates the system's design and presents its crucial component for collecting and processing data that can be used to evaluate domain names captured in monitored high-traffic networks in real time and to build large training datasets effectively. Based on Apache Kafka, the system is designed to allow horizontal scalability in distributed deployments, with experiments showing massive improvements in throughput when multiple instances cooperate. The system collected data from eight external sources for 400,000 domain names in about 4 hours, reaching the average throughput of 28 domain names per second. It was deployed in the CESNET academic network, where it steadily collected and processed data at 9.56 domain names per second.

Description

Citation

ONDRYÁŠ, O. Efektivní rozsáhlý sběr informací o doménových jménech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Počítačové sítě

Comittee

doc. Ing. Richard Růžička, Ph.D., MBA (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (člen) Ing. Jaroslav Dytrych, Ph.D. (člen) doc. Ing. Lukáš Burget, Ph.D. (člen)

Date of acceptance

2024-08-28

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně propustnosti z pohledu počtu zpracovaných DNS jmen za sekundu či možností zrychlení prostřednictvím využití cache paměti. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázkyrozhodla práci hodnotit stupněm A - výborně.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO