Metody detekce nevyžádané elektronické pošty
Loading...
Date
Authors
ORCID
Advisor
Referee
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Hlavním cílem této práce je navrhnout a implementovat detekční algoritmus na spam, který využívá výhradně záznamy provozu v podobě Netflow zpráv. Poskytovatelé internetových služeb musí spam detekovat, aby zabránili označování celých jejich subnetů za spammery. Algoritmus byl navržen na základě analýzy mnohých datasetů obsahující Netflow záznamy. Tyto datasety obsahovaly validní emaily, spam a také běžný internetový provoz. Algoritmus v prvním kroku využívá domain name system blacklistů pro verifikaci spammovací stanice. Veškerá komunikace ze stanic, které se objeví na některém ze seznamů jsou okamžitě zahozeny. Filtrační kritéria algoritmu jsou aplikována pouze na stanice, které nejsou blacklisty označeny. Tato kritéria byla rozdělena na akceptační a seřaďovací. Akceptační kritérium bylo navrženo k nalezení potenciálně významných stanic. Bylo formulováno pět kritérií určených k seřazování těchto vybraných IP adresy dle pravděpodobnosti, že se jedná o spamovací stanice. Za každým kritérium stojí matematická rovnice vracející hodnotu mezi 0 a 1. Celkový součet takto vrácených hodnot se u spamovacích stanic blíží k pěti, zatímco legitimní stanice mají hodnoty znatelně nižší. Výstupem vyvinutého algoritmu je seznam potenciálních spamovacích stanic seřazených podle pravděpodobnosti, že se jedná o spamovací stanice.
The main goal of this thesis is to build a spam detection algorithm that uses solely traffic flow logs in the form of Netflow messages. Internet service providers must detect spam in order for their entire subnets not to be marked as spamming stations. The algorithm was drafted based on an analysis of various datasets containing Netflow records. These datasets consist of valid e-mails, spam and common non e-mail related traffic. The algorithm uses domain name system blacklist verification as the first step of identifying a spamming station. All flagged communications are dropped immediately. Only if a station is not marked are filtering criteria subsequently applied. These criteria have been divided into acceptance and ordering criteria. An acceptance criterion has been drafted to select potentially significant stations. Five ordering criteria have been formulated to sort these selected IP addresses by the probability of them being spamming stations. Behind each criterion is a mathematical equation that returns a value between 0 and 1. The total sums of such returned values are close to 5 with spamming stations, while legitimate stations have noticeably lower values. The output of the developed algorithm is a list of potential spamming stations sorted probability of them being spamming stations.
The main goal of this thesis is to build a spam detection algorithm that uses solely traffic flow logs in the form of Netflow messages. Internet service providers must detect spam in order for their entire subnets not to be marked as spamming stations. The algorithm was drafted based on an analysis of various datasets containing Netflow records. These datasets consist of valid e-mails, spam and common non e-mail related traffic. The algorithm uses domain name system blacklist verification as the first step of identifying a spamming station. All flagged communications are dropped immediately. Only if a station is not marked are filtering criteria subsequently applied. These criteria have been divided into acceptance and ordering criteria. An acceptance criterion has been drafted to select potentially significant stations. Five ordering criteria have been formulated to sort these selected IP addresses by the probability of them being spamming stations. Behind each criterion is a mathematical equation that returns a value between 0 and 1. The total sums of such returned values are close to 5 with spamming stations, while legitimate stations have noticeably lower values. The output of the developed algorithm is a list of potential spamming stations sorted probability of them being spamming stations.
Description
Citation
RICKWOOD, M. Metody detekce nevyžádané elektronické pošty [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2022.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
bez specializace
Comittee
prof. Ing. Dan Komosný, Ph.D. (předseda)
Ing. Petr Dzurenda, Ph.D. (místopředseda)
Ing. Ondřej Pospíšil (člen)
Ing. Tomáš Lieskovan (člen)
JUDr. Ing. František Kasl, Ph.D. (člen)
Ing. Jaroslav Vrána, Ph.D. (člen)
Date of acceptance
2022-06-14
Defence
Student prezentoval výsledky své práce a komise byla seznámena s posudky.
Otázky oponenta:
Porovnejte Vaše výsledné řešení s využitím Naive Bayes.
Jaký by byl postup k vytváření a evaluaci vlastního datasetu z reálné sítě?
Otázky komise:
Kde jste získal dataset použitý v práci?
Jak je to z pohledu práva a dynamických adres v datasetu?
Jedná se o umělý provoz nebo reálný provoz?
Student obhájil bakalářskou práci s výhradami a odpověděl na otázky členů komise a oponenta.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení