Využití technik strojového učení pro detekci a klasifikaci genů v surových nanopórových signálech
Loading...
Date
Authors
Vorochta, Jevhenij
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
ORCID
Abstract
Tato bakalářská práce se zabývá aplikací metod strojového učení na detekci a klasifikaci genů v surových nanopórových signálech. Jejím hlavním cílem bylo vyvinout model neuronové sítě schopný rychlé a spolehlivé detekce genů, včetně genů rezistence vůči antibiotikům. V úvodu je podrobně rozebrán princip nanopórového sekvenování, včetně jeho výhod a omezení, a dále jsou nastíněny běžné formáty pro ukládání výstupních dat (FAST5, POD5). Následně je popsána teorie neuronových sítí a později jsou představeny architektury dvou neuronových sítí. První je převzatá transformerová síť původně používaná pro klasifikaci EKG signálů a druhá je vlastní hybridní konvoluční-transformerová síť. V praktické části byl z reálných sekvenačních dat z platformy Oxford Nanopore vybrán a sestaven dataset s několika geny rezistence. Poté proběhlo trénování a ladění převzaté a vlastní neuronové sítě, přičemž hlavními metrikami hodnocení byly přesnost, F1 skóre a matice záměn. Z dosažených výsledků vyplynulo, že vlastní hybridní model dosahuje mnohem lepších výsledků oproti převzatému. Jeho úspěšnost dosahuje 89,44 % při klasifikaci do čtyř tříd (tři různé geny a žádný gen). Ve srovnání s tradičním přístupem je použití této metody k určení přítomnosti vybraných genů, které vyvolávají rezistenci vůči antibiotikům, minimálně o 66,7 % rychlejší. Využití strojového učení a neuronových sítí pro přímou detekci genů v surových nanopórových signálech je proveditelné a otevírá široké možnosti v oblasti rychlé diagnostiky i výzkumu. Další zdokonalování se může zaměřit na optimalizaci modelu, použití rozsáhlejších a různorodějších dat, nebo také použití statistických metod ke zvýšení úspěšnosti.
This bachelor thesis deals with the application of machine learning methods for gene detection and classification in raw nanopore signals. Its main goal is to develop a neural network model capable of quick and reliable identification of genes, including antibiotic resistance genes. In the introduction, the principle of nanopore sequencing was discussed in detail, including its advantages and limitations, and common output data storage formats (FAST5, POD5) were outlined. Subsequently, the concepts of neural networks were described and later the architectures of two neural networks were presented. The first is an adopted transformer model formerly used for ECG signal classification and the second is a custom hybrid convolutional-transformer model. In the practical part, a dataset with several resistance genes was selected and constructed from real sequencing data from the Oxford Nanopore platform. Training and tuning of the adopted and custom neural network was then performed, with accuracy, F1 score and confusion matrix as the main evaluation metrics. The results showed that the custom hybrid model performed much better than the adopted one. Its success rate is 89,44 % when classifying into four categories (three different genes and no gene). Compared to the traditional approach, using this method for the detection of chosen antibiotic resistance genes is at least 66,7 % faster. The use of machine learning and neural networks for direct detection of genes in raw nanopore signals is feasible and opens up a wide range of possibilities in rapid diagnostics and research. Further improvements may focus on model optimization, using larger and more diverse data, or using statistical methods to increase success rates.
This bachelor thesis deals with the application of machine learning methods for gene detection and classification in raw nanopore signals. Its main goal is to develop a neural network model capable of quick and reliable identification of genes, including antibiotic resistance genes. In the introduction, the principle of nanopore sequencing was discussed in detail, including its advantages and limitations, and common output data storage formats (FAST5, POD5) were outlined. Subsequently, the concepts of neural networks were described and later the architectures of two neural networks were presented. The first is an adopted transformer model formerly used for ECG signal classification and the second is a custom hybrid convolutional-transformer model. In the practical part, a dataset with several resistance genes was selected and constructed from real sequencing data from the Oxford Nanopore platform. Training and tuning of the adopted and custom neural network was then performed, with accuracy, F1 score and confusion matrix as the main evaluation metrics. The results showed that the custom hybrid model performed much better than the adopted one. Its success rate is 89,44 % when classifying into four categories (three different genes and no gene). Compared to the traditional approach, using this method for the detection of chosen antibiotic resistance genes is at least 66,7 % faster. The use of machine learning and neural networks for direct detection of genes in raw nanopore signals is feasible and opens up a wide range of possibilities in rapid diagnostics and research. Further improvements may focus on model optimization, using larger and more diverse data, or using statistical methods to increase success rates.
Description
Keywords
Nanopórové sekvenování , strojové učení , neuronová síť , transformery , konvoluční sítě , klasifikace signálů , genová rezistence , sekvenační data , bioinformatika , genomika , antibiotická rezistence. , Nanopore sequencing , machine learning , neural network , transformers , convolutional networks , signal classification , gene resistance , sequencing data , bioinformatics , genomics , antibiotic resistance.
Citation
VOROCHTA, J. Využití technik strojového učení pro detekci a klasifikaci genů v surových nanopórových signálech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
bez specializace
Comittee
doc. Ing. Petr Kudrna, Ph.D. (předseda)
doc. Ing. Jana Kolářová, Ph.D. (místopředseda)
MUDr. Zuzana Nováková, Ph.D. (člen)
Ing. Kateřina Šabatová (člen)
Ing. Marina Filipenská, Ph.D. (člen)
Ing. Daniel Barvík, Ph.D. (člen)
Date of acceptance
2025-06-17
Defence
Student prezentoval výsledky své práce a komise byla seznámena sposudky.
Doc. Kudrna položil otázku na možnosti zkrácení času a finanční úspory analýzy.
Ing. Filipenská položila otázku ohledně novosti použité metodiky.
Ing. Šabatová položila otázku na rozšíření práce v budoucnosti.
Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta.
Result of defence
práce byla úspěšně obhájena
