Classification of Potentially Malicious File Clusters via Machine Learning

Loading...
Thumbnail Image

Date

Authors

Holop, Patrik

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Táto práca navrhuje alternatívu súčasných metód klasifikácie malvéru na úrovni súborov, ktoré sú často založené na detekcii špecifických postupností bytov v daných súboroch. Experimentáciou bolo potvrdené, že je možné klasifikovať potenciálnu hrozbu aj na úrovni zoskupení súborov založenej na spoločných vlastnostiach súborov v danom zoskupení. To bolo dosiahnuté dôkladným výberom vlastností troch typov súborov - PE, APK a .NET. Porovnaním niekoľkých metód strojového učenia boli vybraté klasifikátory s najvyššou presnosťou a implementovaná webová služba poskytujúca API pre klasifikáciu, ktoré bolo použité pre integráciu s interným systémom spoločnosti Avast zodpovedného za tvorbu súborových zoskupení. Táto práca taktiež diskutuje možné nedostatky a navrhuje kroky pre zlepšenie dosiahnutej presnosti klasifikácie.
This thesis proposes an alternative to currently used malware classification approaches on the file-level often based on the detection of specific byte sequences. The experimentation proved that a cluster-level classification based on the shared properties of files in the cluster is possible. That was achieved by a careful selection of the properties of the three file types - PE, APK and .NET. By comparing various machine learning methods the highest scoring classifiers were selected and a web service providing API for classification was implemented, which was used for the integration with the internal clustering system of the Avast company. This thesis also discusses drawbacks of the proposed  approach and suggests steps for improving the classification.

Description

Citation

HOLOP, P. Classification of Potentially Malicious File Clusters via Machine Learning [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Informační technologie

Comittee

prof. Ing. Tomáš Hruška, CSc. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Igor Szőke, Ph.D. (člen)

Date of acceptance

2019-06-12

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Na základě čeho byly voleny hodnoty hyperparametrů u metody Random forest? V závěru uvádíte, že z experimentů vyplynulo, že klasifikace malware na úrovni shluků souborů typu PE, APK a .NET je možná s nižší přesností než při klasickém použití úrovně souborů. O jak velký rozdíl se jedná a jakou výhodou je vyvážen?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO