Filtrování spamových zpráv pomocí metod umělé inteligence

but.committeeprof. Ing. Jan Hajný, Ph.D. (předseda) doc. Ing. Radim Burget, Ph.D. (místopředseda) Ing. Vlastimil Člupek, Ph.D. (člen) Ing. Josef Vojtěch, Ph.D. (člen) Ing. Jan Dvořák, Ph.D. (člen) Ing. Aneta Koláčková (člen)cs
but.defenceStudent prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta. Otázky oponenta: Porovnával jste špatně klasifikované emaily mezi jednotlivými algoritmy, jestli se jedná o ty samé, nebo se vždy jednalo o jiné emaily? - student dostatečně vysvětlil otázkucs
but.jazykčeština (Czech)
but.programInformační bezpečnostcs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorKolařík, Martincs
dc.contributor.authorSafonov, Yehorcs
dc.contributor.refereeUher, Václavcs
dc.date.created2020cs
dc.description.abstractV moderním počítačovém světě e-mailová komunikace patří do nejpoužívanějších prostředků pro výměnu zpráv mezi uživateli. Jedná se o volně dostupný, efektivní a jednoduchý způsob sloužící ke sdělení informací. Tyto tři základní pilíře přispívají k její světové rozšířenosti a strmému nárůstu přenášených elektronických zpráv. Na druhou stranu, rostoucí popularita této technologie v sobě skrývá velká bezpečnostní rizika a tvoří z ní ideální nástroj pro šíření nevyžádaného obsahu a realizaci útoků cílených jak na koncové uživatele, tak i na celé počítačové infrastruktury. Ačkoliv v dnešní době používané klasické nástroje na filtrování spamu dosahují vysokých přesností, často neumožňují pokrytí dynamičnosti vývoje spamových technik a trpí problémy s přeučením, uváznutím v nevhodných lokálních minimech, neschopností efektivně zpracovávat vysoce dimenzionální data a z dlouhodobého hlediska disponují problémy s udržitelností. Hlavním cílem této diplomové práce je vytvoření a naučení modelů hlubokých neuronových sítí použitím nejmodernějších technik a přístupů existujících ve světě zpracování přirozeného jazyka a strojového učení. V rámci teoretické části se práce zaměřuje na problematiku e-mailové komunikace se zaměřením na filtrování nevyžádané pošty. Následně se věnuje doméně strojového učení a umělých neuronových sítí, zejména principům jejich fungování, základním vlastnostem a možnostem jejich aplikování na okruh problémů spojených s provedením textové analýzy. Mezi silné stránky práce patří provedení podrobného srovnání současných metod strojového učení, jejich specifik a přesnosti při aplikování na klasifikaci spamu. V praktické části práce byl důraz položen na zpracování datové sady surových e-mailů a srovnání modelů ULMFiT, BERT a XLNet. Zpracování dat bylo rozděleno do pěti etap, a to s cílem zachování co nejvyšší informační hodnoty zpráv a vytvoření kvalitní datové sady, která byla použita pro trénování, testování a validaci zvolených druhů neuronových sítí. Dále diplomová práce zahrnuje popis procesu učení sítí včetně etapy finálního přizpůsobení dat k modelování. Na konci práce byly implementované modely srovnány a byla nastíněna případná rozšíření do budoucna.cs
dc.description.abstractIn the modern world, email communication defines itself as the most used technology for exchanging messages between users. It is based on three pillars which contribute to the popularity and stimulate its rapid growth. These pillars are represented by free availability, efficiency and intuitiveness during exchange of information. All of them constitute a significant advantage in the provision of communication services. On the other hand, the growing popularity of email technologies poses considerable security risks and transforms them into an universal tool for spreading unsolicited content. Potential attacks may be aimed at either a specific endpoints or whole computer infrastructures. Despite achieving high accuracy during spam filtering, traditional techniques do not often catch up to rapid growth and evolution of spam techniques. These approaches are affected by overfitting issues, converging into a poor local minimum, inefficiency in highdimensional data processing and have long-term maintainability issues. One of the main goals of this master's thesis is to develop and train deep neural networks using the latest machine learning techniques for successfully solving text-based spam classification problem belonging to the Natural Language Processing (NLP) domain. From a theoretical point of view, the master's thesis is focused on the e-mail communication area with an emphasis on spam filtering. Next parts of the thesis bring attention to the domain of machine learning and artificial neural networks, discuss principles of their operations and basic properties. The theoretical part also covers possible ways of applying described techniques to the area of text analysis and solving NLP. One of the key aspects of the study lies in a detailed comparison of current machine learning methods, their specifics and accuracy when applied to spam filtering. At the beginning of the practical part, focus will be placed on the e-mail dataset processing. This phase was divided into five stages with the motivation of maintaining key features of the raw data and increasing the final quality of the dataset. The created dataset was used for training, testing and validation of types of the chosen deep neural networks. Selected models ULMFiT, BERT and XLNet have been successfully implemented. The master's thesis includes a description of the final data adaptation, neural networks learning process, their testing and validation. In the end of the work, the implemented models are compared using a confusion matrix and possible improvements and concise conclusion are also outlined.en
dc.description.markAcs
dc.identifier.citationSAFONOV, Y. Filtrování spamových zpráv pomocí metod umělé inteligence [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2020.cs
dc.identifier.other125990cs
dc.identifier.urihttp://hdl.handle.net/11012/189201
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectBERTcs
dc.subjectbezpečnostcs
dc.subjecte-mailová komunikacecs
dc.subjectfiltrování spamucs
dc.subjecthluboké učenícs
dc.subjecttextová klasifikacecs
dc.subjectULMFiTcs
dc.subjectumělá inteligencecs
dc.subjectzpracování přirozeného jazykacs
dc.subjectXLNet.cs
dc.subjectArtificial intelligenceen
dc.subjectBERTen
dc.subjectdeep learningen
dc.subjectemail communicationen
dc.subjectnatural language processingen
dc.subjectsecurityen
dc.subjectspam filteringen
dc.subjecttext classificationen
dc.subjectULMFiTen
dc.subjectXLNet.en
dc.titleFiltrování spamových zpráv pomocí metod umělé inteligencecs
dc.title.alternativeEmail spam filtering using artificial intelligenceen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2020-06-16cs
dcterms.modified2020-06-19-07:58:17cs
eprints.affiliatedInstitution.facultyFakulta elektrotechniky a komunikačních technologiícs
sync.item.dbid125990en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 14:23:28en
sync.item.modts2025.01.15 16:52:54en
thesis.disciplineInformační bezpečnostcs
thesis.grantorVysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. Ústav telekomunikacícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
17.7 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.zip
Size:
283.95 KB
Format:
zip
Description:
appendix-1.zip
Loading...
Thumbnail Image
Name:
review_125990.html
Size:
3.28 KB
Format:
Hypertext Markup Language
Description:
file review_125990.html
Collections