Metody detekce nevyžádané elektronické pošty

Hlavním cílem této práce je navrhnout a implementovat detekční algoritmus na spam, který využívá výhradně záznamy provozu v podobě Netflow zpráv. Poskytovatelé internetových služeb musí spam detekovat, aby zabránili označování celých jejich subnetů za spammery. Algoritmus byl navržen na základě analýzy mnohých datasetů obsahující Netflow záznamy. Tyto datasety obsahovaly validní emaily, spam a také běžný internetový provoz. Algoritmus v prvním kroku využívá domain name system blacklistů pro verifikaci spammovací stanice. Veškerá komunikace ze stanic, které se objeví na některém ze seznamů jsou okamžitě zahozeny. Filtrační kritéria algoritmu jsou aplikována pouze na stanice, které nejsou blacklisty označeny. Tato kritéria byla rozdělena na akceptační a seřaďovací. Akceptační kritérium bylo navrženo k nalezení potenciálně významných stanic. Bylo formulováno pět kritérií určených k seřazování těchto vybraných IP adresy dle pravděpodobnosti, že se jedná o spamovací stanice. Za každým kritérium stojí matematická rovnice vracející hodnotu mezi 0 a 1. Celkový součet takto vrácených hodnot se u spamovacích stanic blíží k pěti, zatímco legitimní stanice mají hodnoty znatelně nižší. Výstupem vyvinutého algoritmu je seznam potenciálních spamovacích stanic seřazených podle pravděpodobnosti, že se jedná o spamovací stanice.
The main goal of this thesis is to build a spam detection algorithm that uses solely traffic flow logs in the form of Netflow messages. Internet service providers must detect spam in order for their entire subnets not to be marked as spamming stations. The algorithm was drafted based on an analysis of various datasets containing Netflow records. These datasets consist of valid e-mails, spam and common non e-mail related traffic. The algorithm uses domain name system blacklist verification as the first step of identifying a spamming station. All flagged communications are dropped immediately. Only if a station is not marked are filtering criteria subsequently applied. These criteria have been divided into acceptance and ordering criteria. An acceptance criterion has been drafted to select potentially significant stations. Five ordering criteria have been formulated to sort these selected IP addresses by the probability of them being spamming stations. Behind each criterion is a mathematical equation that returns a value between 0 and 1. The total sums of such returned values are close to 5 with spamming stations, while legitimate stations have noticeably lower values. The output of the developed algorithm is a list of potential spamming stations sorted probability of them being spamming stations.

Keywords

Netflow provoz , ochrana soukromí , nevyžádaná elektronická pošta , Netflow traffic , privacy protection , unsolicited electronic mail

Citation

RICKWOOD, M. Metody detekce nevyžádané elektronické pošty [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2022.

Language of document

en

Study field

bez specializace

Comittee

prof. Ing. Dan Komosný, Ph.D. (předseda) Ing. Petr Dzurenda, Ph.D. (místopředseda) Ing. Ondřej Pospíšil (člen) Ing. Tomáš Lieskovan, Ph.D. (člen) JUDr. Ing. František Kasl, Ph.D. (člen) Ing. Jaroslav Vrána, Ph.D. (člen)

Date of acceptance

2022-06-14

Defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta: Porovnejte Vaše výsledné řešení s využitím Naive Bayes. Jaký by byl postup k vytváření a evaluaci vlastního datasetu z reálné sítě? Otázky komise: Kde jste získal dataset použitý v práci? Jak je to z pohledu práva a dynamických adres v datasetu? Jedná se o umělý provoz nebo reálný provoz? Student obhájil bakalářskou práci s výhradami a odpověděl na otázky členů komise a oponenta.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/205529

Collections

2022

Citace PRO

Full item page

Metody detekce nevyžádané elektronické pošty

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO