Automatové techniky v analýze DNA
Loading...
Date
Authors
Klímová, Lucie
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato práce se zaměřuje na možnosti využití konečných automatů pro zrychlení detekce strukturních domén transpozonů. Hlavní část práce představuje metodu založenou na deterministických konečných automatech (DFA) jako rychlejší alternativu k nástroji BLASTX. Ten je využíván v rámci nástroje TE-greedy-nester, který slouží k detekci LTR retrotranspozonů. Jako výchozí bod byl využit nástroj HMMER, který velice přesně modeluje charakter hledané sekvence pomocí profilových skrytých Markovových modelů (PHMM). Vzhledem k vysoké míře nedeterminismu PHMM nebylo možné přímo vytvořit jeden deterministický model pro celou doménu. Místo toho byl navržen přístup, který PHMM transformuje na několik menších DFA navržených pro detekci podčástí domény. Blízké výskyty těchto podčástí pak indikují přítomnost celé domény. Výsledky testování ukázaly, že tento přístup zachovává vysokou přesnost a zároveň přináší až desetinásobné zrychlení vyhledávání oproti BLASTX.
This thesis is focused on the possibilities of using finite automata to accelerate the detection of structural domains of transposons. The central part of the thesis introduces a method based on deterministic finite automata (DFA) as a faster alternative to the BLASTX tool. BLASTX is used by the TE-greedy-nester tool, which is designed to detect LTR retrotransposons. As a starting point, we used the HMMER tool, which uses a profile hidden Markov model (PHMM) to precisely describe the character of the searched sequence. Due to the significant nondeterminism of PHMMs, the determinization of the model of the entire domain proved unfeasible. Instead, a method to transform a PHMM into several smaller DFAs designed to detect domain subsequences was introduced. Closely located occurrences of these subsequences are subsequently interpreted as occurrences of the entire domain. The experimental evaluation demonstrated that the presented approach maintains high accuracy while achieving up to a tenfold search speedup compared to BLASTX.
This thesis is focused on the possibilities of using finite automata to accelerate the detection of structural domains of transposons. The central part of the thesis introduces a method based on deterministic finite automata (DFA) as a faster alternative to the BLASTX tool. BLASTX is used by the TE-greedy-nester tool, which is designed to detect LTR retrotransposons. As a starting point, we used the HMMER tool, which uses a profile hidden Markov model (PHMM) to precisely describe the character of the searched sequence. Due to the significant nondeterminism of PHMMs, the determinization of the model of the entire domain proved unfeasible. Instead, a method to transform a PHMM into several smaller DFAs designed to detect domain subsequences was introduced. Closely located occurrences of these subsequences are subsequently interpreted as occurrences of the entire domain. The experimental evaluation demonstrated that the presented approach maintains high accuracy while achieving up to a tenfold search speedup compared to BLASTX.
Description
Citation
KLÍMOVÁ, L. Automatové techniky v analýze DNA [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
doc. RNDr. Milan Češka, Ph.D. (předseda)
Ing. Zbyněk Křivka, Ph.D. (člen)
Ing. Zdeněk Materna, Ph.D. (člen)
doc. Ing. Jan Kořenek, Ph.D. (člen)
Ing. Jaroslav Rozman, Ph.D. (člen)
Date of acceptance
2025-06-16
Defence
Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
