Případová studie na dolování z dat v jazyce Python
Loading...
Date
Authors
Stoika, Anastasiia
ORCID
Advisor
Referee
Mark
D
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato práce se zabývá základními koncepty a technikami procesu získávání znalostí z dat. Cílem práce je demonstrovat dostupné prostředky jazyka Python, které umožňují provádět jednotlivé kroky tohoto procesu. Práce je zaměřena především na metody a techniky detekce odlehlých pozorování, založené na shlukování a klasifikaci. Jedná se o řešení analytické úlohy, která se týká zdrojů dat s omezeným množstvím využitelné informace. Tato kontrolní činnost by měla sloužit k detekci podezřelých prodejních transakcí nějaké společnosti, které mohou znamenat pokusy o podvod jejích prodejci.
This thesis focuses on basic concepts and techniques of the process known as knowledge discovery from data. The goal is to demonstrate available resources in Python, which enable to perform the steps of this process. The thesis addresses several methods and techniques focused on detection of unusual observations, based on clustering and classification. It discusses data mining task for data with the limited amount of inspection resources. This inspection activity should be used to detect unusual transactions of sales of some company that may indicate fraud attempts by some of its salespeople.
This thesis focuses on basic concepts and techniques of the process known as knowledge discovery from data. The goal is to demonstrate available resources in Python, which enable to perform the steps of this process. The thesis addresses several methods and techniques focused on detection of unusual observations, based on clustering and classification. It discusses data mining task for data with the limited amount of inspection resources. This inspection activity should be used to detect unusual transactions of sales of some company that may indicate fraud attempts by some of its salespeople.
Description
Keywords
získavání znalostí z dat, datová analýza, detekce odlehlých hodnot, detekce podvodních transakcí, detekce anomalií, analýza odlehlých hodnot, učení bez učitele, učení s učitelem, kombinace učení s učitelem i bez, klasifikace, Bayesovská klasifikace, lokální faktor odlehlosti, předzpracování dat, čištění dat, KDD, knowledge discovery in databases, data mining, data analysis, outlier detection, anomaly detection, outlier analysis, detecting fraudulent transactions, unsupervised learning, supervised learning, semi-supervised learning, classification, Naive Bayes, Local Outlier Factor, Isolation Forest, data preprocessing, data cleaning
Citation
STOIKA, A. Případová studie na dolování z dat v jazyce Python [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
prof. Ing. Tomáš Hruška, CSc. (předseda)
doc. RNDr. Jitka Kreslíková, CSc. (místopředseda)
doc. Ing. Michal Bidlo, Ph.D. (člen)
doc. RNDr. Milan Češka, Ph.D. (člen)
Ing. Igor Szőke, Ph.D. (člen)
Date of acceptance
2019-06-12
Defence
Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm D. Otázky u obhajoby: Vysvětlete, jakým způsobem byly kategorické atributy ID a Prod transformovány pro klasifikační model Gaussian Naive Bayes . Neovlivnila tato transformace výsledný klasifikační model (např. vytvořením určitých nových vztahů mezi jednotlivými hodnotami atributů)?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení