Detekce phishingových stránek pomocí metod strojového učení

Polóni, Peter

Detekce phishingových stránek pomocí metod strojového učení

Files

final-thesis.pdf(3.86 MB)

review_153621.html(8.89 KB)

Authors

Polóni, Peter

Advisor

Hranický, Radek

Referee

Poliakov, Daniel

Mark

A

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Phishingové stránky sú veľmi nebezpečnou hrozbou, čo znamená, že úspešná a spoľahlivá detekcia týchto stránok je veľmi doležitá. Tieto hrozby detekujem s využitím prístupu strojového učenia. Tento prístup je efektívny a dokáže odhaliť aj hrozby, s ktorými sa nikdy predtým nestretol. Ako dôveryhodné zdroje dát URL som využil OpenPhish a PhishTank. Z dôveryhodných URL som nazbieral HTML a JavaScript kód webových stránok. Zber dát som vykonal pomocou programu, ktorý som pre tento účel vytvoril. S využitím vektoru príznakov, ktorý sa skladá z 82 numerických príznakov, som vytvoril štyri klasifikátory. Následne som ich vyladil a experimentálne overil presnosť ich predikcií. Najpresnejší model je XGBoost klasifikátor, ktorý dosiahol vyváženú presnosť až 97.03% a FPR 2.22%, počas predikovania dát, ktoré nikdy predtým nevidel. Výsledky ukazujú, že tento prístup detekcie je schopný identifikovať phishingovú stránku aj v praxi. Toto som overil aj implementovaním webového rozšírenia pre prehliadač Chrome, ktoré detekuje phishigové stránky. Toto rozšírenie je vytvorené nad rámec zadania.
Phishing web pages are a very dangerous threat, which means that successful and reliable detection of these pages is essential. I detect these threats by utilizing a machine learning based approach. This approach is effective and can detect even threats it has never encountered. As credible sources of URLs, I used sources like OpenPhish and PhishTank. I gathered the HTML and JavaScript code of web pages from the trusted URLs by utilizing a data-gathering program that I created. Using the feature vector composed of 82 numerical features, I created four classifiers. Then, I tuned and experimentally tested the performance of these classifiers. The best-performing model is the XGBoost classifier, which achieved a balanced accuracy score of 97.03% and a false positive rate of 2.22% while making predictions on previously unseen data. Results show that this detection approach can identify phishing web pages even in a non-training environment, which I verified by implementing a phishing-detecting web extension for the Chrome browser. Implementing this extension is beyond the scope of the assignment of this thesis.

Keywords

HTML, JavaScript, dátová sada, zber dát, strojové učenie, detekcia phishingu, HTML, JavaScript, dataset, gathering data, machine learning, phishing detection

Citation

POLÓNI, P. Detekce phishingových stránek pomocí metod strojového učení [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Language of document

en

Study field

Informační technologie

Comittee

doc. Ing. Petr Matoušek, Ph.D., M.A. (předseda) Dr. Ing. Petr Peringer (člen) Ing. Matěj Grégr, Ph.D. (člen) doc. Ing. Michal Španěl, Ph.D. (člen) Ing. Lukáš Kekely, Ph.D. (člen)

Date of acceptance

2024-06-11

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

Document licence

Standardní licenční smlouva - přístup k plnému textu bez omezení