Automatové techniky v analýze DNA

Loading...
Thumbnail Image

Date

Authors

Klímová, Lucie

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce se zaměřuje na možnosti využití konečných automatů pro zrychlení detekce strukturních domén transpozonů. Hlavní část práce představuje metodu založenou na deterministických konečných automatech (DFA) jako rychlejší alternativu k nástroji BLASTX. Ten je využíván v rámci nástroje TE-greedy-nester, který slouží k detekci LTR retrotranspozonů. Jako výchozí bod byl využit nástroj HMMER, který velice přesně modeluje charakter hledané sekvence pomocí profilových skrytých Markovových modelů (PHMM). Vzhledem k vysoké míře nedeterminismu PHMM nebylo možné přímo vytvořit jeden deterministický model pro celou doménu. Místo toho byl navržen přístup, který PHMM transformuje na několik menších DFA navržených pro detekci podčástí domény. Blízké výskyty těchto podčástí pak indikují přítomnost celé domény. Výsledky testování ukázaly, že tento přístup zachovává vysokou přesnost a zároveň přináší až desetinásobné zrychlení vyhledávání oproti BLASTX.
This thesis is focused on the possibilities of using finite automata to accelerate the detection of structural domains of transposons. The central part of the thesis introduces a method based on deterministic finite automata (DFA) as a faster alternative to the BLASTX tool. BLASTX is used by the TE-greedy-nester tool, which is designed to detect LTR retrotransposons. As a starting point, we used the HMMER tool, which uses a profile hidden Markov model (PHMM) to precisely describe the character of the searched sequence. Due to the significant nondeterminism of PHMMs, the determinization of the model of the entire domain proved unfeasible. Instead, a method to transform a PHMM into several smaller DFAs designed to detect domain subsequences was introduced. Closely located occurrences of these subsequences are subsequently interpreted as occurrences of the entire domain. The experimental evaluation demonstrated that the presented approach maintains high accuracy while achieving up to a tenfold search speedup compared to BLASTX.

Description

Citation

KLÍMOVÁ, L. Automatové techniky v analýze DNA [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Informační technologie

Comittee

doc. RNDr. Milan Češka, Ph.D. (předseda) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Zdeněk Materna, Ph.D. (člen) doc. Ing. Jan Kořenek, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen)

Date of acceptance

2025-06-16

Defence

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO