Využití technik strojového učení pro detekci a klasifikaci genů v surových nanopórových signálech

Loading...
Thumbnail Image

Date

Authors

Vorochta, Jevhenij

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií

ORCID

Abstract

Tato bakalářská práce se zabývá aplikací metod strojového učení na detekci a klasifikaci genů v surových nanopórových signálech. Jejím hlavním cílem bylo vyvinout model neuronové sítě schopný rychlé a spolehlivé detekce genů, včetně genů rezistence vůči antibiotikům. V úvodu je podrobně rozebrán princip nanopórového sekvenování, včetně jeho výhod a omezení, a dále jsou nastíněny běžné formáty pro ukládání výstupních dat (FAST5, POD5). Následně je popsána teorie neuronových sítí a později jsou představeny architektury dvou neuronových sítí. První je převzatá transformerová síť původně používaná pro klasifikaci EKG signálů a druhá je vlastní hybridní konvoluční-transformerová síť. V praktické části byl z reálných sekvenačních dat z platformy Oxford Nanopore vybrán a sestaven dataset s několika geny rezistence. Poté proběhlo trénování a ladění převzaté a vlastní neuronové sítě, přičemž hlavními metrikami hodnocení byly přesnost, F1 skóre a matice záměn. Z dosažených výsledků vyplynulo, že vlastní hybridní model dosahuje mnohem lepších výsledků oproti převzatému. Jeho úspěšnost dosahuje 89,44 % při klasifikaci do čtyř tříd (tři různé geny a žádný gen). Ve srovnání s tradičním přístupem je použití této metody k určení přítomnosti vybraných genů, které vyvolávají rezistenci vůči antibiotikům, minimálně o 66,7 % rychlejší. Využití strojového učení a neuronových sítí pro přímou detekci genů v surových nanopórových signálech je proveditelné a otevírá široké možnosti v oblasti rychlé diagnostiky i výzkumu. Další zdokonalování se může zaměřit na optimalizaci modelu, použití rozsáhlejších a různorodějších dat, nebo také použití statistických metod ke zvýšení úspěšnosti.
This bachelor thesis deals with the application of machine learning methods for gene detection and classification in raw nanopore signals. Its main goal is to develop a neural network model capable of quick and reliable identification of genes, including antibiotic resistance genes. In the introduction, the principle of nanopore sequencing was discussed in detail, including its advantages and limitations, and common output data storage formats (FAST5, POD5) were outlined. Subsequently, the concepts of neural networks were described and later the architectures of two neural networks were presented. The first is an adopted transformer model formerly used for ECG signal classification and the second is a custom hybrid convolutional-transformer model. In the practical part, a dataset with several resistance genes was selected and constructed from real sequencing data from the Oxford Nanopore platform. Training and tuning of the adopted and custom neural network was then performed, with accuracy, F1 score and confusion matrix as the main evaluation metrics. The results showed that the custom hybrid model performed much better than the adopted one. Its success rate is 89,44 % when classifying into four categories (three different genes and no gene). Compared to the traditional approach, using this method for the detection of chosen antibiotic resistance genes is at least 66,7 % faster. The use of machine learning and neural networks for direct detection of genes in raw nanopore signals is feasible and opens up a wide range of possibilities in rapid diagnostics and research. Further improvements may focus on model optimization, using larger and more diverse data, or using statistical methods to increase success rates.

Description

Citation

VOROCHTA, J. Využití technik strojového učení pro detekci a klasifikaci genů v surových nanopórových signálech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

bez specializace

Comittee

doc. Ing. Petr Kudrna, Ph.D. (předseda) doc. Ing. Jana Kolářová, Ph.D. (místopředseda) MUDr. Zuzana Nováková, Ph.D. (člen) Ing. Kateřina Šabatová (člen) Ing. Marina Filipenská, Ph.D. (člen) Ing. Daniel Barvík, Ph.D. (člen)

Date of acceptance

2025-06-17

Defence

Student prezentoval výsledky své práce a komise byla seznámena sposudky. Doc. Kudrna položil otázku na možnosti zkrácení času a finanční úspory analýzy. Ing. Filipenská položila otázku ohledně novosti použité metodiky. Ing. Šabatová položila otázku na rozšíření práce v budoucnosti. Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO