Metody rychlého srovnání a identifikace sekvencí v metagenomických datech

Loading...
Thumbnail Image

Date

Authors

Kupková, Kristýna

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

ORCID

Abstract

Předmětem této práce je vytvoření metody sloužící k identifikaci organismů z metagenomických dat. Doposud k tomuto účelu spolehlivě dostačovaly metody založené na zarovnání sekvencí s referenční databází. Množství dat ovšem s rozvojem sekvenačních technik rapidně roste a tyto metody se tak stávají díky své výpočetní náročnosti nevhodnými. V této diplomové práci je popsán postup nové techniky, která umožňuje klasifikaci metagenomických dat bez nutnosti zarovnání. Metoda spočívá v převedení sekvenovaných úseků na genomické signály ve formě fázových reprezentací, ze kterých jsou následně extrahovány vektory příznaků. Těmito příznaky jsou tři Hjorthovy deskriptory. Ty jsou dále vystaveny metodě maximalizace věrohodnosti směsi Gaussovských rozložení, která umožňuje spolehlivé roztřídění fragmentů podle jejich příslušnosti k organismu.
The objective of this thesis is to create a method for identification of organisms in metagenomic data. Until this point methods based on sequence alignment with reference database have been sufficient for this purpose. However, the volume of data grows rapidly with evolvement of sequencing techniques and the alignment-based methods became inconvenient due to computationally demanding alignment. A new technique is introduced in this master’s thesis, which allows alignment-free metagenomic data classification. The method is based on transformation of sequences to genomic signals in form of phase representation, from which feature vectors are extracted. These features are three Hjorth descriptors, which are then subjected expectation maximization for Gaussian mixture model method allowing reliable binning of metagenomic data.

Description

Citation

KUPKOVÁ, K. Metody rychlého srovnání a identifikace sekvencí v metagenomických datech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2016.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Biomedicínské inženýrství a bioinformatika

Comittee

prof. Ing. Valentýna Provazník, Ph.D. (předseda) doc. RNDr. Martin Kovár, Ph.D. (místopředseda) Ing. Jan Odstrčilík, Ph.D. (člen) Ing. Jan Červený, Ph.D. (člen) Ing. Vratislav Čmiel, Ph.D. (člen)

Date of acceptance

2016-06-08

Defence

Studentka prezentovala výsledky své práce a komise byla seznámena s posudky. Prof. Provazník položil otázku: jaký statistický přístup byste zvolila pro vyhodnocení výsledků práce? Ing. Odstrčilík položil otázku: proč jsou clustery přeskupeny? Ing. Červený položil otázku: co vyjadřuje tabulka uvedená v prezentaci? Jak vysoká je přesnost klasifikace, je 89 % již dostatečně vysoká přesnost? Prof. Provazník položil otázku: chcete zachovat i míru příbuznosti organismů nebo Vám jde především o přesnost rozdělení do clusterů? Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO