Klasifikace na nevyvážených datech

but.jazykangličtina (English)
but.programVýpočetní technika a informatikacs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorZendulka, Jaroslaven
dc.contributor.authorHlosta, Martinen
dc.contributor.refereePopelínský, Lubomíren
dc.contributor.refereeŠtěpánková,, Olgaen
dc.date.accessioned2021-11-22T11:58:37Z
dc.date.available2021-11-22T11:58:37Z
dc.date.createdcs
dc.description.abstractTématem této disertační práce je klasifikace daty s nevyváženými daty. Jedná se o oblast strojového, jejímž cílem je řešit problémy, které plynou z toho, že jedna ze tříd je v datech zastoupena výrazně méně než třída druhá. Minoritní třída má často větší význam a tradiční metody upřednostňující majoritní třídu nedosahují dobrých výsledků na třídě minoritní. Dvě aplikační domény motivovaly výzkum a vedly na identifikaci dvou specifických, dosud neřešených problémů.  V první z nich vedlo omezení kladené na minimální požadovanou přesnost na minoritní třídě v počítačové bezpečnosti na formulaci úlohy klasifikace s omezením. Navrhl jsem metodu, která kombinuje upravenou verzi logistické regrese a stochastické algoritmy, které vždy vylepšily výsledky logistické regrese.Druhou je doména analýzy učení (Learning Analytics), která motivovala definici problému predikce splnění cíle, jenž má specifikovaný termín splnění. Byl představen koncept sebe-učení (Self-Learning), kdy trénování modelu probíhá díky jedincům, kteří tento cíl splní předčasně. Díky malému počtu jedinců splňujících úlohu na začátku je problém silně nevyvážený, ale nevyváženost klesá směrem k termínu splnění. Na problému identifikace rizikových studentů distanční univerzity bylo ukázáno, že (1) takový koncept dává lepší výsledky než specifikovaná základna (baseline), (2) a že metody pro vypořádání se s nevyvážeností, které neberou v potaz informaci o doméně, nevedly k velkým zlepšením. Evaluace ukázala, že metody založené na znalosti domény v rozšířené verzi pro Self-Learning vylepšily klasifikaci více než běžné metody pro vypořádání se s nevyvážeností a že znalost příčiny nevyváženosti může vést k lepším výsledkům.en
dc.description.abstractThis thesis is focused on classification on unbalanced data. It is an important part of machine learning with the objective to address the issues when one class is significantly underrepresented compared to the other one. The minority class is usually more important, and the traditional algorithms favouring the majority class may ignore the importance of the minority class. Two application domains motivated the research and identification of two specific problems of the imbalanced data.  First, the presence of a constraint on the performance of a minority class in the computer security domain resulted in the formulation of the constrained classification problem. I proposed a solution that combines the cost-sensitive logistic regression and stochastic algorithms, which in the conducted experiments always improved the performance of the logistic regression.The domain of Learning Analytics motivated me to define a general prediction problem, whether a goal is has been achieved within the deadline. I designed the Self-Learning framework, in which models are trained by analysing attributes of objects that achieved the goal early in the investigated period. Because only a few objects satisfy the goal at the beginning, the problem is by its nature imbalanced, with the imbalance decreasing in time. The evaluation, performed on the task of identification of at-risk students in the distance higher education, showed (1) the predictive power compared the specified baseline models and (2) that methods for tackling the class imbalance without domain information didn't lead to significant improvements. When the domain information is utilised in the extended version of Self-Learning, the evaluation showed the performance increase.  Understanding and exploiting the source of imbalance can also lead to better results.cs
dc.description.markPcs
dc.identifier.citationHLOSTA, M. Klasifikace na nevyvážených datech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .cs
dc.identifier.other128200cs
dc.identifier.urihttp://hdl.handle.net/11012/187323
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectData miningcs
dc.subjectclassificationcs
dc.subjectimbalanced datacs
dc.subjectmachine learningcs
dc.subjectdata mining with constraintscs
dc.subjecttime-variant imbalance ratio.cs
dc.subjectDolování z daten
dc.subjectklasifikaceen
dc.subjectnevyvážená dataen
dc.subjectstrojové učeníen
dc.subjectdolování z dat s omezenímen
dc.subjectzměna nevyváženosti v čase.en
dc.titleKlasifikace na nevyvážených datechen
dc.title.alternativeClassification on unbalanced datacs
dc.typeTextcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
dcterms.modified2020-05-10-17:46:47cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid128200en
sync.item.dbtypeZPen
sync.item.insts2021.11.22 12:58:37en
sync.item.modts2021.11.22 12:14:13en
thesis.disciplineVýpočetní technika a informatikacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelDoktorskýcs
thesis.namePh.D.cs
Files
Original bundle
Now showing 1 - 5 of 6
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
3 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
thesis-1.pdf
Size:
3 MB
Format:
Adobe Portable Document Format
Description:
thesis-1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-1043_s1.pdf
Size:
67.76 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-1043_s1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-1043_o1.pdf
Size:
100.08 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-1043_o1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-1043_o2.pdf
Size:
1 MB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-1043_o2.pdf
Collections