Detekce repetitivních sekvencí v genomech

Abstract
Repetitivní sekvence mohou tvořit významnou část genomu, v některých případech více než 80%, která však bývala vědci často přehlížena. Dnes je známo, že repetice mají v genomu různé funkce a rozdělují se na dvě hlavní skupiny: rozptýlené a tandemové repetice. Cílem této práce bylo vytvoření bioinformatických nástrojů pro detekci repetic, ať už přímo ze sekvenačních dat generovaných sekvenátory, nebo ze sestavených genomů. V úvodní části práce poskytuje náhled do problematiky a přehled typů repetic vyskytujících se v genomech. Dále se práce zabývá stávajícími přístupy a nástroji zaměřenými na identifikaci repetic přímo ze sestavených sekvencí. Hlavním přínosem do této oblasti bylo vytvoření nástroje digIS, který se zaměřuje na detekci inserčních sekvencí, které přestavují nejhojněji se vyskytující rozptýlené repetice u prokaryot. digIS je založen na principu profilových skrytých Markovových modelů zkonstruovaných pro katalytické domény transpozáz, které představují nejkonzervativnější část inserčních sekvencí a zachovávají si sekundární strukturu v rámci rodiny. Následně práce poskytuje přehled sekvenačních technologií a rozebírá stávající metody pro detekci repetic přímo ze sekvenačních dat, bez nutnosti procházejícího sestavení genomu. Je představen nový přístup pro detailní analýzu tandemových repetic. Tento přístup rozšiřuje základní analýzu nástroje RepeatExplorer, který detekuje a charakterizuje repetice přímo ze sekvenačních dat. Práce dále diskutuje aplikace detekce repetic v biologickém výzkumu zejména z pohledu srovnávacích studií repeatomu a evoluce pohlavních chromozomů. V závěrečné části práce poskytuje souhrn dosažených výsledků výzkumu v podobě čtyř článků publikovaných v mezinárodních časopisech, jejichž plné znění je dostupné v přílohách, a celkové shrnutí práce a možnosti budoucího výzkumu.
Repetitive sequences can make up a significant part of the genome, in some cases more than 80%, but scientists have often overlooked them. Today we know that repeats have various functions in the genomes and are divided into two main groups: interspersed and tandem repeats. This work aimed to develop bioinformatics tools to detect repetitive sequences, either directly from sequencing data generated by sequencers or assembled genomes. In the introductory part, the work provides an insight into the issue and an overview of the repeat types occurring in genomes. Furthermore, the work deals with existing approaches and tools with an aim to detect repeats directly from the assembled sequences. The main contribution to this area was developing the digIS tool, which aims to detect insertion sequences that represent the most abundant interspersed repeats in prokaryotes. digIS is based on the principle of profile hidden Markov models constructed for the catalytic domains of transposases, representing the most conserved part of the insertion sequences and retaining a secondary structure within the family. Subsequently, the work provides an overview of sequencing technologies and discusses existing methods for detecting repeats directly from sequencing data without the need for prior genome assembly. A novel approach for a detailed analysis of tandem repeats is presented. This approach extends the primary analysis of RepeatExplorer, which detects and characterizes repeats directly from sequencing data. The work further discusses the applications of repeat detection in biological research, especially from the point of view of comparative repeatome studies and the evolution of sex chromosomes. Finally, the work summarizes the research results in the form of four articles published in international journals, the full text of which is available in the appendices, and provides a general summary of the work together with possibilities for future research.
Description
Citation
PUTEROVÁ, J. Detekce repetitivních sekvencí v genomech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Výpočetní technika a informatika
Comittee
prof. Ing. Lukáš Sekanina, Ph.D. (předseda) prof. Ing. Jan Holub, Ph.D. (člen) Ing. Pavel Jedlička, Ph.D. (člen) doc. Ing. Jiří Kléma, Ph.D. (člen) doc. Mgr. Tomáš Vinař, Ph.D. (člen)
Date of acceptance
Defence
Studentka přednesla cíle a výsledky, kterých v rámci řešení disertační práce dosáhla. V rozpravě studentka odpověděla na otázky komise a oponentů a hostů. Diskuze je zaznamenána na diskuzních lístcích, které jsou přílohou protokolu (a také na záznamu dotazů hostů, kteří byli přítomni online). Počet položených dotazů: 3. Komise se v závěru jednomyslně usnesla, že studentka splnila podmínky pro udělení akademického titulu doktorka. Komise jednomyslně doporučuje, aby studentce byla udělena cena za výjimečně kvalitní disertační práci.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO