Metody pro predikci s vysokodimenzionálními daty genových expresí
Loading...
Date
Authors
ORCID
Advisor
Referee
Mark
P
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Dizertační práce se zabývá predikcí vysokodimenzionálních dat genových expresí. Množství dostupných genomických dat významně vzrostlo v průběhu posledního desetiletí. Kombinování dat genových expresí s dalšími daty nachází uplatnění v mnoha oblastech. Například v klinickém řízení rakoviny (clinical cancer management) může přispět k přesnějšímu určení prognózy nemocí. Hlavní část této dizertační práce je zaměřena na kombinování dat genových expresí a klinických dat. Používáme logistické regresní modely vytvořené prostřednictvím různých regularizačních technik. Generalizované lineární modely umožňují kombinování modelů s různou strukturou dat. V dizertační práci je ukázáno, že kombinování modelu dat genových expresí a klinických dat může vést ke zpřesnění výsledku predikce oproti vytvoření modelu pouze z dat genových expresí nebo klinických dat. Navrhované postupy přitom nejsou výpočetně náročné. Testování je provedeno nejprve se simulovanými datovými sadami v různých nastaveních a následně s~reálnými srovnávacími daty. Také se zde zabýváme určením přídavné hodnoty microarray dat. Dizertační práce obsahuje porovnání příznaků vybraných pomocí klasifikátoru genových expresí na pěti různých sadách dat týkajících se rakoviny prsu. Navrhujeme také postup výběru příznaků, který kombinuje data genových expresí a znalosti z genových ontologií.
This thesis deals with class prediction with high-dimensional gene expression data. During the last decade, an increasing amount of genomic data has become available. Combining gene expression data with other data can be useful in clinical management, where it can improve the prediction of disease prognosis. The main part of this thesis is aimed at combining gene expression data with clinical data. We use logistic regression models that can be built through various regularized techniques. Generalized linear models enable us to combine models with different structure of data. It is shown that such a combination may yield more accurate predictions than those obtained based on the use of gene expression or clinical data alone. Suggested approaches are not computationally intensive. Evaluations are performed with simulated data sets in different settings and then with real benchmark data sets. The work also characterizes an additional predictive value of microarrays. The thesis includes a comparison of selected features of gene expression classifiers built up in five different breast cancer data sets. Finally, a feature selection that combines gene expression data with gene ontology information is proposed.
This thesis deals with class prediction with high-dimensional gene expression data. During the last decade, an increasing amount of genomic data has become available. Combining gene expression data with other data can be useful in clinical management, where it can improve the prediction of disease prognosis. The main part of this thesis is aimed at combining gene expression data with clinical data. We use logistic regression models that can be built through various regularized techniques. Generalized linear models enable us to combine models with different structure of data. It is shown that such a combination may yield more accurate predictions than those obtained based on the use of gene expression or clinical data alone. Suggested approaches are not computationally intensive. Evaluations are performed with simulated data sets in different settings and then with real benchmark data sets. The work also characterizes an additional predictive value of microarrays. The thesis includes a comparison of selected features of gene expression classifiers built up in five different breast cancer data sets. Finally, a feature selection that combines gene expression data with gene ontology information is proposed.
Description
Keywords
predictive classification, generalized linear models, boosting, logistic regression, elastic net, model evaluation, high-dimensional data, combining of heterogenous data, feature selection, DNA microarray data, gene expression, clinical data, gene ontology, prediktivní klasifikace, generalizované lineární modely, boosting, logistická regrese, elastická síť, vyhodnocování modelu, vysokodimensionální data, kombinování heterogenních dat, výběr příznaků, DNA microarray data, genové exprese, klinická data, genové ontologie
Citation
ŠILHAVÁ, J. Metody pro predikci s vysokodimenzionálními daty genových expresí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Výpočetní technika a informatika
Comittee
Date of acceptance
Defence
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení