Filtrování spamových zpráv pomocí metod umělé inteligence

Safonov, Yehor

Filtrování spamových zpráv pomocí metod umělé inteligence

but.committee	prof. Ing. Jan Hajný, Ph.D. (předseda) doc. Ing. Radim Burget, Ph.D. (místopředseda) Ing. Vlastimil Člupek, Ph.D. (člen) Ing. Josef Vojtěch, Ph.D. (člen) Ing. Jan Dvořák, Ph.D. (člen) Ing. Aneta Koláčková (člen)	cs
but.defence	Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta. Otázky oponenta: Porovnával jste špatně klasifikované emaily mezi jednotlivými algoritmy, jestli se jedná o ty samé, nebo se vždy jednalo o jiné emaily? - student dostatečně vysvětlil otázku	cs
but.jazyk	čeština (Czech)
but.program	Informační bezpečnost	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Kolařík, Martin	cs
dc.contributor.author	Safonov, Yehor	cs
dc.contributor.referee	Uher, Václav	cs
dc.date.created	2020	cs
dc.description.abstract	V moderním počítačovém světě e-mailová komunikace patří do nejpoužívanějších prostředků pro výměnu zpráv mezi uživateli. Jedná se o volně dostupný, efektivní a jednoduchý způsob sloužící ke sdělení informací. Tyto tři základní pilíře přispívají k její světové rozšířenosti a strmému nárůstu přenášených elektronických zpráv. Na druhou stranu, rostoucí popularita této technologie v sobě skrývá velká bezpečnostní rizika a tvoří z ní ideální nástroj pro šíření nevyžádaného obsahu a realizaci útoků cílených jak na koncové uživatele, tak i na celé počítačové infrastruktury. Ačkoliv v dnešní době používané klasické nástroje na filtrování spamu dosahují vysokých přesností, často neumožňují pokrytí dynamičnosti vývoje spamových technik a trpí problémy s přeučením, uváznutím v nevhodných lokálních minimech, neschopností efektivně zpracovávat vysoce dimenzionální data a z dlouhodobého hlediska disponují problémy s udržitelností. Hlavním cílem této diplomové práce je vytvoření a naučení modelů hlubokých neuronových sítí použitím nejmodernějších technik a přístupů existujících ve světě zpracování přirozeného jazyka a strojového učení. V rámci teoretické části se práce zaměřuje na problematiku e-mailové komunikace se zaměřením na filtrování nevyžádané pošty. Následně se věnuje doméně strojového učení a umělých neuronových sítí, zejména principům jejich fungování, základním vlastnostem a možnostem jejich aplikování na okruh problémů spojených s provedením textové analýzy. Mezi silné stránky práce patří provedení podrobného srovnání současných metod strojového učení, jejich specifik a přesnosti při aplikování na klasifikaci spamu. V praktické části práce byl důraz položen na zpracování datové sady surových e-mailů a srovnání modelů ULMFiT, BERT a XLNet. Zpracování dat bylo rozděleno do pěti etap, a to s cílem zachování co nejvyšší informační hodnoty zpráv a vytvoření kvalitní datové sady, která byla použita pro trénování, testování a validaci zvolených druhů neuronových sítí. Dále diplomová práce zahrnuje popis procesu učení sítí včetně etapy finálního přizpůsobení dat k modelování. Na konci práce byly implementované modely srovnány a byla nastíněna případná rozšíření do budoucna.	cs
dc.description.abstract	In the modern world, email communication defines itself as the most used technology for exchanging messages between users. It is based on three pillars which contribute to the popularity and stimulate its rapid growth. These pillars are represented by free availability, efficiency and intuitiveness during exchange of information. All of them constitute a significant advantage in the provision of communication services. On the other hand, the growing popularity of email technologies poses considerable security risks and transforms them into an universal tool for spreading unsolicited content. Potential attacks may be aimed at either a specific endpoints or whole computer infrastructures. Despite achieving high accuracy during spam filtering, traditional techniques do not often catch up to rapid growth and evolution of spam techniques. These approaches are affected by overfitting issues, converging into a poor local minimum, inefficiency in highdimensional data processing and have long-term maintainability issues. One of the main goals of this master's thesis is to develop and train deep neural networks using the latest machine learning techniques for successfully solving text-based spam classification problem belonging to the Natural Language Processing (NLP) domain. From a theoretical point of view, the master's thesis is focused on the e-mail communication area with an emphasis on spam filtering. Next parts of the thesis bring attention to the domain of machine learning and artificial neural networks, discuss principles of their operations and basic properties. The theoretical part also covers possible ways of applying described techniques to the area of text analysis and solving NLP. One of the key aspects of the study lies in a detailed comparison of current machine learning methods, their specifics and accuracy when applied to spam filtering. At the beginning of the practical part, focus will be placed on the e-mail dataset processing. This phase was divided into five stages with the motivation of maintaining key features of the raw data and increasing the final quality of the dataset. The created dataset was used for training, testing and validation of types of the chosen deep neural networks. Selected models ULMFiT, BERT and XLNet have been successfully implemented. The master's thesis includes a description of the final data adaptation, neural networks learning process, their testing and validation. In the end of the work, the implemented models are compared using a confusion matrix and possible improvements and concise conclusion are also outlined.	en
dc.description.mark	A	cs
dc.identifier.citation	SAFONOV, Y. Filtrování spamových zpráv pomocí metod umělé inteligence [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2020.	cs
dc.identifier.other	125990	cs
dc.identifier.uri	http://hdl.handle.net/11012/189201
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	BERT	cs
dc.subject	bezpečnost	cs
dc.subject	e-mailová komunikace	cs
dc.subject	filtrování spamu	cs
dc.subject	hluboké učení	cs
dc.subject	textová klasifikace	cs
dc.subject	ULMFiT	cs
dc.subject	umělá inteligence	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	XLNet.	cs
dc.subject	Artificial intelligence	en
dc.subject	BERT	en
dc.subject	deep learning	en
dc.subject	email communication	en
dc.subject	natural language processing	en
dc.subject	security	en
dc.subject	spam filtering	en
dc.subject	text classification	en
dc.subject	ULMFiT	en
dc.subject	XLNet.	en
dc.title	Filtrování spamových zpráv pomocí metod umělé inteligence	cs
dc.title.alternative	Email spam filtering using artificial intelligence	en
dc.type	Text	cs
dc.type.driver	masterThesis	en
dc.type.evskp	diplomová práce	cs
dcterms.dateAccepted	2020-06-16	cs
dcterms.modified	2020-06-19-07:58:17	cs
eprints.affiliatedInstitution.faculty	Fakulta elektrotechniky a komunikačních technologií	cs
sync.item.dbid	125990	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.26 14:23:28	en
sync.item.modts	2025.01.15 16:52:54	en
thesis.discipline	Informační bezpečnost	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikací	cs
thesis.level	Inženýrský	cs
thesis.name	Ing.	cs

Files

Original bundle

Now showing 1 - 3 of 3

Name:: final-thesis.pdf
Size:: 17.7 MB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: appendix-1.zip
Size:: 283.95 KB
Format:: zip
Description:: appendix-1.zip

Download

Name:: review_125990.html
Size:: 3.28 KB
Format:: Hypertext Markup Language
Description:: file review_125990.html

Download

Collections

2020