Metody rychlého srovnání a identifikace sekvencí v metagenomických datech
Loading...
Date
Authors
Kupková, Kristýna
ORCID
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
Abstract
Předmětem této práce je vytvoření metody sloužící k identifikaci organismů z metagenomických dat. Doposud k tomuto účelu spolehlivě dostačovaly metody založené na zarovnání sekvencí s referenční databází. Množství dat ovšem s rozvojem sekvenačních technik rapidně roste a tyto metody se tak stávají díky své výpočetní náročnosti nevhodnými. V této diplomové práci je popsán postup nové techniky, která umožňuje klasifikaci metagenomických dat bez nutnosti zarovnání. Metoda spočívá v převedení sekvenovaných úseků na genomické signály ve formě fázových reprezentací, ze kterých jsou následně extrahovány vektory příznaků. Těmito příznaky jsou tři Hjorthovy deskriptory. Ty jsou dále vystaveny metodě maximalizace věrohodnosti směsi Gaussovských rozložení, která umožňuje spolehlivé roztřídění fragmentů podle jejich příslušnosti k organismu.
The objective of this thesis is to create a method for identification of organisms in metagenomic data. Until this point methods based on sequence alignment with reference database have been sufficient for this purpose. However, the volume of data grows rapidly with evolvement of sequencing techniques and the alignment-based methods became inconvenient due to computationally demanding alignment. A new technique is introduced in this master’s thesis, which allows alignment-free metagenomic data classification. The method is based on transformation of sequences to genomic signals in form of phase representation, from which feature vectors are extracted. These features are three Hjorth descriptors, which are then subjected expectation maximization for Gaussian mixture model method allowing reliable binning of metagenomic data.
The objective of this thesis is to create a method for identification of organisms in metagenomic data. Until this point methods based on sequence alignment with reference database have been sufficient for this purpose. However, the volume of data grows rapidly with evolvement of sequencing techniques and the alignment-based methods became inconvenient due to computationally demanding alignment. A new technique is introduced in this master’s thesis, which allows alignment-free metagenomic data classification. The method is based on transformation of sequences to genomic signals in form of phase representation, from which feature vectors are extracted. These features are three Hjorth descriptors, which are then subjected expectation maximization for Gaussian mixture model method allowing reliable binning of metagenomic data.
Description
Citation
KUPKOVÁ, K. Metody rychlého srovnání a identifikace sekvencí v metagenomických datech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2016.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Biomedicínské inženýrství a bioinformatika
Comittee
prof. Ing. Valentýna Provazník, Ph.D. (předseda)
doc. RNDr. Martin Kovár, Ph.D. (místopředseda)
Ing. Jan Odstrčilík, Ph.D. (člen)
Ing. Jan Červený, Ph.D. (člen)
Ing. Vratislav Čmiel, Ph.D. (člen)
Date of acceptance
2016-06-08
Defence
Studentka prezentovala výsledky své práce a komise byla seznámena s posudky.
Prof. Provazník položil otázku: jaký statistický přístup byste zvolila pro vyhodnocení výsledků práce?
Ing. Odstrčilík položil otázku: proč jsou clustery přeskupeny?
Ing. Červený položil otázku: co vyjadřuje tabulka uvedená v prezentaci? Jak vysoká je přesnost klasifikace, je 89 % již dostatečně vysoká přesnost?
Prof. Provazník položil otázku: chcete zachovat i míru příbuznosti organismů nebo Vám jde především o přesnost rozdělení do clusterů?
Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení