Classification of Potentially Malicious File Clusters via Machine Learning
Loading...
Date
Authors
ORCID
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Táto práca navrhuje alternatívu súčasných metód klasifikácie malvéru na úrovni súborov, ktoré sú často založené na detekcii špecifických postupností bytov v daných súboroch. Experimentáciou bolo potvrdené, že je možné klasifikovať potenciálnu hrozbu aj na úrovni zoskupení súborov založenej na spoločných vlastnostiach súborov v danom zoskupení. To bolo dosiahnuté dôkladným výberom vlastností troch typov súborov - PE, APK a .NET. Porovnaním niekoľkých metód strojového učenia boli vybraté klasifikátory s najvyššou presnosťou a implementovaná webová služba poskytujúca API pre klasifikáciu, ktoré bolo použité pre integráciu s interným systémom spoločnosti Avast zodpovedného za tvorbu súborových zoskupení. Táto práca taktiež diskutuje možné nedostatky a navrhuje kroky pre zlepšenie dosiahnutej presnosti klasifikácie.
This thesis proposes an alternative to currently used malware classification approaches on the file-level often based on the detection of specific byte sequences. The experimentation proved that a cluster-level classification based on the shared properties of files in the cluster is possible. That was achieved by a careful selection of the properties of the three file types - PE, APK and .NET. By comparing various machine learning methods the highest scoring classifiers were selected and a web service providing API for classification was implemented, which was used for the integration with the internal clustering system of the Avast company. This thesis also discusses drawbacks of the proposed approach and suggests steps for improving the classification.
This thesis proposes an alternative to currently used malware classification approaches on the file-level often based on the detection of specific byte sequences. The experimentation proved that a cluster-level classification based on the shared properties of files in the cluster is possible. That was achieved by a careful selection of the properties of the three file types - PE, APK and .NET. By comparing various machine learning methods the highest scoring classifiers were selected and a web service providing API for classification was implemented, which was used for the integration with the internal clustering system of the Avast company. This thesis also discusses drawbacks of the proposed approach and suggests steps for improving the classification.
Description
Citation
HOLOP, P. Classification of Potentially Malicious File Clusters via Machine Learning [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
prof. Ing. Tomáš Hruška, CSc. (předseda)
doc. RNDr. Jitka Kreslíková, CSc. (místopředseda)
Ing. Michal Bidlo, Ph.D. (člen)
doc. RNDr. Milan Češka, Ph.D. (člen)
Ing. Igor Szőke, Ph.D. (člen)
Date of acceptance
2019-06-12
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Na základě čeho byly voleny hodnoty hyperparametrů u metody Random forest? V závěru uvádíte, že z experimentů vyplynulo, že klasifikace malware na úrovni shluků souborů typu PE, APK a .NET je možná s nižší přesností než při klasickém použití úrovně souborů. O jak velký rozdíl se jedná a jakou výhodou je vyvážen?
Result of defence
práce byla úspěšně obhájena
Document licence
Přístup k plnému textu prostřednictvím internetu byl licenční smlouvou omezen na dobu 3 roku/let