Nástroj pro predikci atributů životního stylu na základě metagenomických dat z tlustého střeva

Loading...
Thumbnail Image

Date

Authors

Kubica, Jan

Mark

C

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce se zabývá analýzou lidského mikrobiomu na základě metagenomických dat z tlustého střeva. Předmětem zkoumání je zastoupení bakterií na různých taxonomických úrovních v závislosti na životním stylu jedince. Byl vytvořen nástroj klasifikující jednotlivé atributy, jako jsou stravovací návyky (vegetarián, vegan, všežravec), citlivost na lepek a laktózu, body mass index nebo věk či pohlaví, s využitím metod strojového učení. Při implementaci byly zvoleny metody k nejbližších sousedů (kNN), náhodný les (RF) a metoda podpůrných vektorů (SVM). Data pro natrénování klasifikátoru a vyhodnocení byla čerpána z projektu American Gut. Práce se rovněž zaobírá problémy spojenými s danými datovými sadami, jako je mnoharozměrnost, řídkost, jejich kompoziční závislost a nevyváženost.
This thesis deals with analysis of human microbiome using metagenomic data from large intestine. The main focus is placed on bacteria composition in a sample on different taxonomic levels regarding the lifestyle traits of an individual. For this purpose, a tool for classification of several attributes was created. It considers attributes like diet type and eating habits (vegetarian, vegan, omnivore), gluten and lactose intolerance, body mass index, age or sex. From range of machine learning perspectives considering K Nearest Neighbours (kNN), Random Forest (RF) and Support Vector Machines (SVM) were used. Datasets for training and final evaluation of the classifier were taken from American Gut project. The thesis also focuses on particular problems with metagenomic datasets like its multidimensionality, sparsity, compositional character and class imbalance.

Description

Citation

KUBICA, J. Nástroj pro predikci atributů životního stylu na základě metagenomických dat z tlustého střeva [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační technologie

Comittee

prof. Ing. Lukáš Sekanina, Ph.D. (předseda) doc. Ing. František Zbořil, CSc. (místopředseda) RNDr. Petr Fuchs, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) doc. Ing. Tomáš Martínek, Ph.D. (člen)

Date of acceptance

2019-06-13

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na otázku přítomného člena. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm dobře (C) . Otázky u obhajoby: V práci používáte algoritmus kNN. Zkoušel jste více metrik pro posouzení vzdálenosti mezi vzorky? Jak dobře by fungovala např. kosinova vzdálenost, resp. Pearsonova korelační vzdálenost? Zkoušel jste pro výběr rysů použít nějakou z již publikovaných metod? Např. LASSO? Jak si vysvětlujete, že algoritmus LDA byl schopen za daných podmínek oddělit třídy atributu diet_type? Dosáhl by natrénovaný model stejného výsledku i na dosud nepozorovaných datech?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO