Machine learning models for quantifying phenotypic signatures of cancer cells based on transcriptomic and epigenomic data
Loading...
Date
Authors
Koban, Martin
ORCID
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
S rozvojom techník pre efektívnu akvizíciu genomických dát sa jednou z kľúčových vedeckých výziev stala interpretácia výsledkov týchto experimentov v zmysluplnom biologickom kontexte. Táto práca sa zameriava na využitie informácií ukrytých v dobre charakterizovaných transkriptomických a epigenomických dátach z verejne dostupných zdrojov pre účely takejto interpretácie. Najskôr je vytvorený integrovaný súbor dát generovaných metódami DNase-seq a ATAC-seq, ktoré kvantifikujú chromatínovú dostupnosť. Tieto údaje sú doplnené verejne dostupnými výsledkami techniky RNA-seq pre kvantitatívne hodnotenie génovej expresie a vhodne predspracované pre ďalšiu analýzu. Pripravené dáta sú následne použité na trénovanie modelov strojového učenia (klasifikátorov) s dvomi základnými cieľmi. Po prvé za účelom augmentácie metadát prislúchajúcich k jednotlivým biologickým vzorkám v trénovacom dátovom súbore pomocou predikcie nedefinovaných anotácií. Po druhé pre anotáciu zle charakterizovaných testovacích dát (nepoužitých v trénovacej fáze) za účelom overenia generalizačnej schopnosti zostavených modelov. Dosiahnuté výsledky ukazujú, že natrénované klasifikátory sú schopné zachytiť biologicky relevantné informácie, zatiaľ čo vplyv technických artefaktov je minimalizovaný. Navrhnutý prístup je preto schopný prispieť k lepšiemu pochopeniu komplexných transkriptomických a epigenomických dát, predovšetkým v oblasti onkologického výskumu.
Since the advent of techniques capable of rapid acquisition of genomic data, it is one of the key challenges for researchers to interpret the results of such experiments in meaningful biological terms. In this work, we aim to exploit knowledge hidden in well-characterised transcriptomic and epigenomic data from publicly available sources to aid this interpretation. An integrated resource of chromatin accessibility data (from DNase-seq and ATAC-seq experiments) was created and pre-processed for downstream analyses, complemented by collections of public gene expression (RNA-seq) profiles. These datasets were used for training machine learning classifiers with two primary purposes. Firstly, for augmenting sample annotations by predicting undefined metadata labels in the training datasets. Secondly, for annotation of poorly characterised, unseen data to examine generalisation ability of the constructed models. We demonstrated that biologically relevant information was captured by the trained classifiers while technical artefacts were minimised. Thus, we validated that the proposed supervised machine learning approach can contribute to clarifying contents of cryptic transcriptomic and epigenomic datasets, particularly from the field of cancer research.
Since the advent of techniques capable of rapid acquisition of genomic data, it is one of the key challenges for researchers to interpret the results of such experiments in meaningful biological terms. In this work, we aim to exploit knowledge hidden in well-characterised transcriptomic and epigenomic data from publicly available sources to aid this interpretation. An integrated resource of chromatin accessibility data (from DNase-seq and ATAC-seq experiments) was created and pre-processed for downstream analyses, complemented by collections of public gene expression (RNA-seq) profiles. These datasets were used for training machine learning classifiers with two primary purposes. Firstly, for augmenting sample annotations by predicting undefined metadata labels in the training datasets. Secondly, for annotation of poorly characterised, unseen data to examine generalisation ability of the constructed models. We demonstrated that biologically relevant information was captured by the trained classifiers while technical artefacts were minimised. Thus, we validated that the proposed supervised machine learning approach can contribute to clarifying contents of cryptic transcriptomic and epigenomic datasets, particularly from the field of cancer research.
Description
Citation
KOBAN, M. Machine learning models for quantifying phenotypic signatures of cancer cells based on transcriptomic and epigenomic data [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2020.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Biomedicínské a ekologické inženýrství
Comittee
Date of acceptance
2020-09-25
Defence
Student prezentoval svou diplomovou práci, seznámil komisi s výsledky své práce a zodpověděl dotazy členů komise.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení