Statistické modely pro predikci časové náročnosti projektů
Loading...
Date
Authors
Oberta, Dušan
ORCID
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta strojního inženýrství
Abstract
Cieľom tejto bakalárskej práce je odvodiť štatistické modely vhodné pre analýzu dát a aplikovať ich na analýzu reálnych dát týkajúcich sa časovej náročnosti projektov v závislosti na charakteristikách projektov. V úvodnej kapitole sú študované lineárne regresné modely založené na metóde najmenších štvorcov, vrátane ich vlastností a predikčných intervalov. Nasleduje kapitola zaoberajúca sa problematikou zobecnených lineárnych modelov založených na metóde maximálnej vierohodnosti, ich vlastností a zostavením asymptotických konfidenčných intervalov pre stredné hodnoty. Ďalšia kapitola sa zaoberá problematikou regresných stromov, kde sú znova ukázané metóda najmenších štvrocov a metóda maximálnej vierohodnosti. Boli ukázané základné princípy orezávania regresných stromov a odvodenie konfidenčných intervalov pre stredné hodnoty. Metóda maximálnej vierohodnosti pre regresné stromy a odvodenie konfidenčných intervalov boli z podstatnej časti vlastným odvodením autora. Posledným študovaným modelom sú náhodné lesy, vrátane ich základných vlastností a konfidenčných intervalov pre stredné hodnoty. V týchto kapitolách boli taktiež ukázané metódy posúdenia kvality modelu, výberu optimálneho podmodelu, poprípade určenia optimálnych hodnôt rôznych parametrov. Na záver sú dané modely a algoritmy implementované v jazyku Python a aplikované na reálne dáta.
The aim of this thesis is to introduce statistical models suitable for data analysis and apply them on real data related to time duration of projects based on characteristics of given projects. In the first chapter, linear regression models based on the least squares method are studied, including their properties and prediction intervals. The next chapter deals with the problematics of generalized linear models, which are based on the maximum likelihood estimation principle. Also basic properties of generalized linear models and asymptotic confidence intervals for expected values are described. In the next chapter, regression trees are introduced, with two methods of growing the trees, namely least squares and maximum likelihood estimation. Also basic principles of pruning the trees and confidence intervals for expected values were described. Derivation of maximum likelihood estimation for regression trees and confidence intervals are to a great extent own work of the author. The last described models are random forests, including their basic properties and confidence intervals for expected values. Throughout these chapters, methods for assessing model's quality, selection of optimal submodel and finding optimal values for tuning parameters were also described. At the end, the studied models and algorithms are implemented in Python and applied on real data.
The aim of this thesis is to introduce statistical models suitable for data analysis and apply them on real data related to time duration of projects based on characteristics of given projects. In the first chapter, linear regression models based on the least squares method are studied, including their properties and prediction intervals. The next chapter deals with the problematics of generalized linear models, which are based on the maximum likelihood estimation principle. Also basic properties of generalized linear models and asymptotic confidence intervals for expected values are described. In the next chapter, regression trees are introduced, with two methods of growing the trees, namely least squares and maximum likelihood estimation. Also basic principles of pruning the trees and confidence intervals for expected values were described. Derivation of maximum likelihood estimation for regression trees and confidence intervals are to a great extent own work of the author. The last described models are random forests, including their basic properties and confidence intervals for expected values. Throughout these chapters, methods for assessing model's quality, selection of optimal submodel and finding optimal values for tuning parameters were also described. At the end, the studied models and algorithms are implemented in Python and applied on real data.
Description
Keywords
lineárna regresia, metóda najmenších štvorcov, predikčné intervaly, zobecnené lineárne modely, metóda maximálnej vierohodnosti, konfidenčné intervaly, regresné stromy, k-násobná krížová validácia, bagging, bootstrapping, náhodné lesy, linear regression, least squares, prediction intervals, generalized linear models, maximum likelihood estimation, confidence intervals, regression trees, k-fold cross validation, bagging, bootstrapping, random forests
Citation
OBERTA, D. Statistické modely pro predikci časové náročnosti projektů [online]. Brno: Vysoké učení technické v Brně. Fakulta strojního inženýrství. 2023.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
bez specializace
Comittee
prof. RNDr. Miroslav Doupovec, CSc., dr. h. c. (předseda)
doc. Mgr. Petr Vašík, Ph.D. (místopředseda)
Ing. Josef Bednář, Ph.D. (člen)
Ing. Mgr. Eva Mrázková, Ph.D. (člen)
RNDr. Radovan Potůček, Ph.D. (člen)
Date of acceptance
2023-06-13
Defence
Student prezentoval svou práci. Školitelka shrnula svůj posudek, přečten posudek oponenta. Otázky oponenta:
1. Proč hladina spolehlivosti 90 procent? Požadavek firmy.
2. Jaký model by vybral jako nejvhodnější. Náhodné lesy včetně uvedení parametrů.
3. Vyzkoušel i nelineární model z knihovny Pythonu. Zkoušel k nearest neighbors, nedal tak dobré výsledky jako náhodné lesy, lepší než linární, vysvětlil problémy.
doc. Vašík: Kde v rámci Pythonu je k nearest neighbors k dispozici? Intervaly příliš široké, nebo příliš úzké pro 95procentní spolehlivost? Rozhodovací kritérium v rámci tvorby stromu. Vše v pořádku vysvětleno.
dr. Bednář: Větvičky vždy dvě, větší a menší? Počet parametrů modelu, je jich více než u klasických modelu? V pořádku zodpovězeno.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení