Metody rychlého srovnání a identifikace sekvencí v metagenomických datech

Předmětem této práce je vytvoření metody sloužící k identifikaci organismů z metagenomických dat. Doposud k tomuto účelu spolehlivě dostačovaly metody založené na zarovnání sekvencí s referenční databází. Množství dat ovšem s rozvojem sekvenačních technik rapidně roste a tyto metody se tak stávají díky své výpočetní náročnosti nevhodnými. V této diplomové práci je popsán postup nové techniky, která umožňuje klasifikaci metagenomických dat bez nutnosti zarovnání. Metoda spočívá v převedení sekvenovaných úseků na genomické signály ve formě fázových reprezentací, ze kterých jsou následně extrahovány vektory příznaků. Těmito příznaky jsou tři Hjorthovy deskriptory. Ty jsou dále vystaveny metodě maximalizace věrohodnosti směsi Gaussovských rozložení, která umožňuje spolehlivé roztřídění fragmentů podle jejich příslušnosti k organismu.
The objective of this thesis is to create a method for identification of organisms in metagenomic data. Until this point methods based on sequence alignment with reference database have been sufficient for this purpose. However, the volume of data grows rapidly with evolvement of sequencing techniques and the alignment-based methods became inconvenient due to computationally demanding alignment. A new technique is introduced in this master’s thesis, which allows alignment-free metagenomic data classification. The method is based on transformation of sequences to genomic signals in form of phase representation, from which feature vectors are extracted. These features are three Hjorth descriptors, which are then subjected expectation maximization for Gaussian mixture model method allowing reliable binning of metagenomic data.

Keywords

metagenom , klasifikace , bez zarovnání , genomický signál , Hjorthovy deskriptory , strojové učení , metagenome , binning , alignment-free , genomic signal , Hjorth descriptors , machine learning

Citation

KUPKOVÁ, K. Metody rychlého srovnání a identifikace sekvencí v metagenomických datech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2016.

Language of document

en

Study field

Biomedicínské inženýrství a bioinformatika

Comittee

prof. Ing. Valentýna Provazník, Ph.D. (předseda) doc. RNDr. Martin Kovár, Ph.D. (místopředseda) Ing. Jan Odstrčilík, Ph.D. (člen) Ing. Jan Červený, Ph.D. (člen) Ing. Vratislav Čmiel, Ph.D. (člen)

Date of acceptance

2016-06-08

Defence

Studentka prezentovala výsledky své práce a komise byla seznámena s posudky. Prof. Provazník položil otázku: jaký statistický přístup byste zvolila pro vyhodnocení výsledků práce? Ing. Odstrčilík položil otázku: proč jsou clustery přeskupeny? Ing. Červený položil otázku: co vyjadřuje tabulka uvedená v prezentaci? Jak vysoká je přesnost klasifikace, je 89 % již dostatečně vysoká přesnost? Prof. Provazník položil otázku: chcete zachovat i míru příbuznosti organismů nebo Vám jde především o přesnost rozdělení do clusterů? Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/59879

Collections

2016

Citace PRO

Full item page

Metody rychlého srovnání a identifikace sekvencí v metagenomických datech

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO