Zpracování unikátních molekulárních indexů bez mapování k referenčnímu genomu

Hlavným cieľom tejto práce je návrh nového algoritmu k spracovaniu unikátnych molekulárnych indexov bez mapovania na referenčný genóm. O tieto náhodné oligonukleotidové sekvencie neustále vzrastá záujem, pretože uľahčujú rozpoznávať PCR chyby a skresľovanie údajov. Keďže používanie technológií sekvenovania novej generácie neustále rastie, je vynaložené veľké úsilie vyvíjať nástroje pre analýzu produkovaných dát. V súčasnosti sú nástroje na riešenie týchto chýb relatívne časovo náročné a zložité z dôvodu výpočtovo náročného zarovnania. Najdôležitejšie obmedzenie týchto nástrojov spočíva v skutočnosti, že pri spracovávaní duplikátov sú povolené multi-mapované čítania. Tieto čítania sú zvyčajne ignorované, čo môže viesť k zníženiu kvantitatívnej presnosti a spôsobiť zavádzajúcu interpretáciu výsledkov daného sekvenovania. V snahe vyriešiť tento problém je v tejto práci uvedený nový prístup, ktorý umožňuje odhad absolútneho počtu jedinečných molekúl s relatívne rýchlym a spoľahlivým spôsobom.
The main purpose of this thesis is to design a new algorithm for processing unique molecular identifiers (UMIs) without mapping to a reference genome. These random oligonucleotide sequences are attracting an increasing interest due to its ability to facilitate PCR error and bias recognition. Since there has been a rapid rise in the use of next-generation sequencing (NGS) technologies, great effort has been put into the development of tools for data analysis. At present, tools to solve these errors are usually relative time-consuming and complex due to computationally demanding alignment. The most important limitation of these tools lies in the fact that multi-mapping reads are allowed when processing duplicates. These reads are usually ignored and may lead to a reduction of quantitative accuracy and cause misleading interpretation of sequencing results. In order to solve this problem, a new approach is introduced in this thesis, which allows estimating the absolute number of unique molecules with relatively fast and reliable performance.

Keywords

unikátne molekulárne identifikátory (UMI) , nová generácia sekvenovania , PCR chyby , duplikáty , unique molecular identifier (UMI) , next-generation sequencing , PCR error , duplicates

Citation

BARILÍKOVÁ, L. Zpracování unikátních molekulárních indexů bez mapování k referenčnímu genomu [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2020.

Language of document

en

Study field

bez specializace

Comittee

doc. Ing. Daniel Schwarz, Ph.D. (předseda) Ing. Helena Vítková, Ph.D. (místopředseda) Ing. Vratislav Harabiš, Ph.D. (člen) Ing. Martin Lamoš, Ph.D. (člen) Ing. Jakub Hejč, Ph.D. (člen)

Date of acceptance

2020-06-16

Defence

Studentka prezentovala výsledky své práce a komise byla seznámena s posudky. Ing. Hejč položil otázku, co byla Vaše implementace a co bylo převzato? Ing. Škutková položila otázku, jak byly srovnávány nástroje, co bylo bráno jako standard? Jak byla zvolena reference pro UMI-tools? Doc. Schwarz položil otázku, jak byla vytvořena simulovaná data? Ing. Škutková položila doplňující otázku, jaká technologie sekvenování byla simulována? Studentka obhájila diplomovou práci a odpověděla na otázky členů komise a oponenta.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/189147

Collections

2020

Citace PRO

Full item page

Zpracování unikátních molekulárních indexů bez mapování k referenčnímu genomu

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO