Efektivní rozsáhlý sběr informací o doménových jménech
but.committee | doc. Ing. Richard Růžička, Ph.D., MBA (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (člen) Ing. Jaroslav Dytrych, Ph.D. (člen) doc. Ing. Lukáš Burget, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně propustnosti z pohledu počtu zpracovaných DNS jmen za sekundu či možností zrychlení prostřednictvím využití cache paměti. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázkyrozhodla práci hodnotit stupněm A - výborně. | cs |
but.jazyk | angličtina (English) | |
but.program | Informační technologie a umělá inteligence | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Hranický, Radek | en |
dc.contributor.author | Ondryáš, Ondřej | en |
dc.contributor.referee | Jeřábek, Kamil | en |
dc.date.created | 2024 | cs |
dc.description.abstract | Tato práce představuje programové řešení poskytující rychlý sběr dat a extrakci příznaků pro účely detekce škodlivých doménových jmen s využitím strojového učení. Představuje výzkumný projekt FETA DomainRadar, jehož cílem je vývoj systému pro vyhodnocování škodlivosti doménových jmen. Pojednává o různých zdrojích informací, které se v této úloze osvědčily. Upřesňuje návrh tohoto systému a prezentuje jeho klíčovou část pro sběr a zpracování dat, kterou lze použít pro pro vyhodnocování doménových jmen zachycených v reálném čase v sítích s velkým provozem, ale také pro efektivní sestavování rozsáhlých trénovacích datových sad. Systém na bázi platformy Apache Kafka je navržen tak, aby umožňoval nasazení v distribuovaném prostředí, a byl tak horizontálně škálovatelný. Provedené experimenty ukazují významný nárůst propustnosti systému při kooperaci několika instancí. Systém zvládl nasbírat data z osmi externích zdrojů pro 400 000 doménových jmen přibližně za 4 hodiny, čímž dosáhl průměrné propustnosti 28 doménových jmen za sekundu. Poté byl nasazen v akademické síti CESNET, kde bez obtíží sbíral a zpracovával data pro 9,56 doménových jmen za sekundu. | en |
dc.description.abstract | This thesis presents a software solution that provides fast data collection and feature extraction for the purpose of detecting malicious domain names using machine learning. It introduces the FETA DomainRadar research project targeted at developing a system for assessing domain name maliciousness. It discusses various sources of information that proved helpful for the task. It elaborates the system's design and presents its crucial component for collecting and processing data that can be used to evaluate domain names captured in monitored high-traffic networks in real time and to build large training datasets effectively. Based on Apache Kafka, the system is designed to allow horizontal scalability in distributed deployments, with experiments showing massive improvements in throughput when multiple instances cooperate. The system collected data from eight external sources for 400,000 domain names in about 4 hours, reaching the average throughput of 28 domain names per second. It was deployed in the CESNET academic network, where it steadily collected and processed data at 9.56 domain names per second. | cs |
dc.description.mark | A | cs |
dc.identifier.citation | ONDRYÁŠ, O. Efektivní rozsáhlý sběr informací o doménových jménech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024. | cs |
dc.identifier.other | 154543 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/249598 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | doménové jméno | en |
dc.subject | DNS | en |
dc.subject | WHOIS | en |
dc.subject | RDAP | en |
dc.subject | IP | en |
dc.subject | TLS | en |
dc.subject | certifikáty | en |
dc.subject | reputační systémy | en |
dc.subject | NERD | en |
dc.subject | velká data | en |
dc.subject | sběr dat | en |
dc.subject | Apache Kafka | en |
dc.subject | Kafka Streams | en |
dc.subject | distribuované výpočty | en |
dc.subject | phishing | en |
dc.subject | škodlivý obsah | en |
dc.subject | klasifikace | en |
dc.subject | detekce | en |
dc.subject | extrakce příznaků | en |
dc.subject | domain name | cs |
dc.subject | DNS | cs |
dc.subject | WHOIS | cs |
dc.subject | RDAP | cs |
dc.subject | IP | cs |
dc.subject | TLS | cs |
dc.subject | certificates | cs |
dc.subject | reputation systems | cs |
dc.subject | NERD | cs |
dc.subject | big data | cs |
dc.subject | data collection | cs |
dc.subject | Apache Kafka | cs |
dc.subject | Kafka Streams | cs |
dc.subject | distributed computation | cs |
dc.subject | phishing | cs |
dc.subject | malware | cs |
dc.subject | classification | cs |
dc.subject | detection | cs |
dc.subject | feature extraction | cs |
dc.title | Efektivní rozsáhlý sběr informací o doménových jménech | en |
dc.title.alternative | Efficient Large-scale Collection of Information Related to Domain Names | cs |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2024-08-28 | cs |
dcterms.modified | 2024-08-28-12:22:39 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 154543 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 15:38:36 | en |
sync.item.modts | 2025.01.15 20:17:07 | en |
thesis.discipline | Počítačové sítě | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |