Dolování rozpustných enzymů z genomických databází

Abstract
Enzymy jsou proteiny urychlující chemické reakce s velkým potenciálem pro farmaceutický a obecně chemický průmysl. Enzymatická funkce je obvykle zajištěna několika nepostradatelnými aminokyselinami, které tvoří tzv. aktivní místo, kde se odehrává chemická reakce. V této práci jsou prezentovány dva integrované softwarové nástroje pro dolování a racionální výběr nových rozpustných enzymů - EnzymeMiner a SoluProt.  EnzymeMiner slouží k hledání nových enzymů. Na vstupu vyžaduje jednu nebo více sekvencí zvoleného enzymu spolu se seznamem klíčových aminokyselin. Tento seznam slouží k zvýšení pravděpodobnosti, že nalezený enzym bude mít podobnou funkci jako vstupní enzym. Výstupem EnzymeMineru je množina anotovaných sekvencí nalezených v databázi. Za účelem ulehčení výběru několika málo kandidátů pro experimentální ověření v laboratoři integruje EnzymeMiner anotace z dostupných databází - informaci o zdrojovém organismu a prostředí, ve kterém se vyskytuje, a informaci o proteinových doménách, ze kterých se enzym skládá. Hlavním kritériem pro výběr kandidátů je rozpustnost predikovaná druhým prezentovaným nástrojem, SoluProtem. SoluProt je metoda založená na strojovém učení, která predikuje heterologní rozpustnou expresi proteinu v organismu Escherichia coli . Vstupem je sekvence a výstupem je pravděpodobnost, že protein bude exprimován v rozpustné formě. SoluProt využívá model gradient boosting machine a byl trénován na datové sadě odvozené od databáze TargetTrack. Při srovnání na vyvážené nezávislé datové sadě odvozené z databáze NESG dosáhl SoluProt přesnosti 58,5 % a hodnoty AUC 0,62, čímž lehce převyšuje ostatní existující nástroje. Nástroje EnzymeMiner i SoluProt jsou často využívány řadou uživatelů z oblasti proteinového inženýrství za účelem hledání nových rozpustných biokatalyzátorů chemických reakcí. Ty mají velký potenciál snížit energetickou náročnost a ekologickou zátěž mnoha průmyslových procesů.
Enzymes are proteins accelerating chemical reactions, which makes them attractive targets for both pharmaceutical and industrial applications. The enzyme function is mediated by several essential amino acids which form the optimal chemical environment to catalyse the reaction. In this work, two integrated bioinformatics tools for mining and rational selection of novel soluble enzymes, EnzymeMiner and SoluProt, are presented. EnzymeMiner uses one or more enzyme sequences as input along with a description of essential residues to search the protein database. The description of essential amino acids is used to increase the probability of similar enzymatic function. EnzymeMiner output is a set of annotated database hits. EnzymeMiner integrates taxonomic, environmental, and protein domain annotations to facilitate selection of promising targets for experiments. The main prioritization criterion is solubility predicted by the second tool being presented, SoluProt.  SoluProt is a machine-learning method for the prediction of soluble protein expression in Escherichia coli . The input is a protein sequence and the output is the probability of such protein to be soluble. SoluProt exploits a gradient boosting machine to decide on the output prediction class. The tool was trained on TargetTrack database. When evaluated against a balanced independent test set derived from the NESG database, SoluProt accuracy was 58.5% and its AUC 0.62, slightly exceeding those of a suite of alternative solubility prediction tools. Both EnzymeMiner and SoluProt are frequently used by the protein engineering community to find novel soluble biocatalysts for chemical reactions. These have a great potential to decrease energetic consumption and environmental burden of many industrial chemical processes.
Description
Citation
HON, J. Dolování rozpustných enzymů z genomických databází [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Výpočetní technika a informatika
Comittee
prof. Ing. Lukáš Sekanina, Ph.D. (předseda) prof. Ing. Jan Holub, Ph.D. (člen) doc. RNDr. David Hoksza, Ph.D. (člen) doc. RNDr. Radka Svobodová, Ph.D. (člen) doc. RNDr. David Šafránek, Ph.D. (člen)
Date of acceptance
2022-03-22
Defence
Student přednesl cíle a výsledky, kterých v rámci řešení disertační práce dosáhl. V rozpravě student odpověděl na otázky komise a oponentů. Diskuze je zaznamenána na diskuzních lístcích, které jsou přílohou protokolu. Počet diskuzních lístků: 2 Komise se v závěru jednomyslně usnesla, že student splnil podmínky pro udělení akademického titulu doktor. Komise jednomyslně doporučuje, aby studentovi byla udělena cena za výjimečně kvalitní disertační práci.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO