MARTINKOVÁ, T. Konzervace pozice genů v bakteriálních genomech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2018.

Posudky

Posudek vedoucího

Maděránková, Denisa

Studentka Tereza Martinková vypracovala bakalářskou práci na téma „Konzervace pozice genů v bakteriálních genomech“. Práce má od úvodu po závěr 29 stran. Studentka práci několikrát konzultovala, ale konzultace se týkaly řešení pozičního vektoru genů, což je v podstatě předzpracování dat, které mělo být vyřešeno již během semestrálního projektu. Rozpracovaná práce byla předložena ve stavu, v jakém byla v rámci semestrálního projektu. Práce trpí mnohými formálními nedostatky, např. Obr. 1.2 je zbytečný, odkazy na literaturu nejsou sousledné, obr. 3.1 znázorňuje translokaci v eukaryotním genomu místo prokaryotním a kvalita obrázku je velmi nízká, zbytečně velké obrázky blokových schémat 6.1 až 6.3, obr. 7.1, 7.2 a 9.1 by neměly být obrázky, formátování a podbarvení seznamu literatury a další. Největší nedostatky jsou odborného charakteru. Text prvních kapitol literární rešerše je značně krkolomný, zavádějící (např. že promotor zahajuje transkripci), některá tvrzení se opakují. Hned v Úvodu se objevuje pojem synteny bloky, avšak není nijak vysvětlen. V kap. 1.1.1 nejsou vysvětleny pojmy konjugace a transformace, v kap. 1.1.2 není vysvětleno, jak se epizom liší od plazmidu, a před touto kapitolou není o epizomech žádná zmínka. Kapitola 2 měla být řazena až za kap. 3 a samotný rozsah kapitol o anotaci genomů a komparativní genomice je nedostatečný. Nejdůležitější kapitola o synteny blocích a porovnávání bakteriálních genomů je příliš stručná. V kapitole 5 o genomech použitých k analýze chybí podrobnější popis genomů jako je délka, počet genů a zdůvodnění, proč byly dané genomy vybrány s ohledem na referenční genom E. coli. Způsob vytváření pozičních vektorů genů, jež měly sloužit jako vstupní data do třídícího algoritmu, který měl být hlavním bodem zadání, je vysvětlen krkolomně a samotné programové řešení je prakticky nepoužitelné. Metoda zlomového třídění je teoreticky popsána mezi kapitolami vlastního řešení. Velmi zjednodušený kód algoritmu byl zkopírován z materiálů pro předmět FPRG, což studentka nikde neuvádí. Zjednodušený algoritmus však nešel použít na reálná data vzhledem k výskytu translokací. Řešení tohoto problému mělo být nedílnou součástí vlastního řešení práce. Studentčino zdůvodnění, proč tento problém neřešila, je scestné, viz str. 29 poslední odstavec. Stejně tak je nepravdivé zdůvodnění, proč se v pozičním vektoru vyskytují osamocené hodnoty. U výpočtu p-distance jako poměr počtu kroků třídění ku počtu prvků tříděného vektoru uvádí místo celkového počtu prvků délku sekvence. Podobnostní analýza genomů je provedena špatně, interpretace a diskuze výsledků tudíž postrádá význam. Kapitola 8 patří do teoretického úvodu. Ačkoliv bylo studentce několikrát navrženo, aby problematiku neřešila od začátku na reálných datech, ale sestavila data umělá, či reálná data značně omezila např. jen na provozní geny, neučinila tak. Vzhledem k výtkám, nebylo zadání práce splněno a hodnotím ji stupněm F, 30 bodů.

Navrhovaná známka
F
Body
30

Posudek oponenta

Sedlář, Karel

Studentka Tereza Martinková se ve své práci zabývá nebo spíše pouze pokouší zabývat návrhem a realizací nástroje pro porovnání bakteriálních genomů na základě rozdílných pozic genů v porovnávaných genomech. Tématu se ovšem zhostila velmi nevhodným způsobem. Teoretická část práce je svou kvalitou naprosto nedostatečná a obsahuje množství zavádějících tvrzení, např. že bakteriální chromozóm se dá považovat za exon, že určité geny se nazývají operony aj., nebo tvrzení úsměvných, např. „bakterie využívající se v životním prostředí“. Smysl některých kapitol pak zůstává čtenáři zcela skryt, např. kapitola 1.1.2 Epizomy obsahuje pouhé čtyři řádky textu a s tématem práce evidentně nijak nesouvisí. Byť měla být práce zaměřena na bakterie, velká část textu se zabývá tématikou spojenou s eukaryoty, např. kapitola o komparativní genomice zmiňuje boj proti lidským nemocem, kapitola o mutacích hovoří o gametických mutacích atd. V kapitole o GenBank databázi nejprve studentka správně zmiňuje, že se jedná o databázi spravovanou americkým NCBI, dále však v textu hovoří o NCBI databázi a ne GenBank databázi. I tato kapitola obsahuje zavádějící tvrzení o tom, že formát GenBank umožňuje uložení sekvence o maximální délce 350 kbp, přitom k práci jsou přiložené genomy v tomto formátu obsahující sekvence o délkách několika Mbp. Výše zmíněné nedostatky pramení pravděpodobně především z tristní práce s literaturou, kdy většina kapitol je založena na zdroji číslo 1, kterým je učebnice genetiky. Navíc reference nejsou použity podle normy a jejich číslování je zcela náhodné. Zcela chybí reference k tématu opravdu relevantních článků z kvalitních časopisů, dokonce není citován ani jeden ze dvou doporučených zdrojů uvedených na zadání. Praktická část práce bohužel pokračuje na stejně nízké úrovni. Metodologie navržená studentkou nemohla nikdy reálně fungovat. Anotace bakteriálních genomů není zdaleka tak pokročilá, aby šlo geny vyhledávat podle shodného názvu, případně názvu proteinového produktu. Je zcela běžné, že rozdílné geny jsou pojmenované stejně i v RefSeq databázi, kterou studentka použila na testování. Šanci na úspěch má pouze třetí přístup, který studentka navrhla, a to použití sekvenční podobnosti. Je ale naprosto nemyslitelné používat samotné dynamické programování, pro množství zpracovávaných dat je nutné využití heuristických postupů. Dále je nutné si uvědomit, že různé bakterie obsahují různé geny. Přitom ale existuje zhruba 400 tzv. provozních (housekeeping) genů, které se nachází ve všech genomech napříč bakteriální doménou. Logické by bylo zaměřit se právě na tyto geny místo pevného nastavení referenčního genomu na organismus E. coli. Není proto překvapením, že navržený postup nefunguje a studentka tak nesplnila zadání. Nerozumím také vysvětlení parametru n v rovnici 7.1, který spíše reprezentuje počet společných genů než délku sekvence. V odevzdaném zdrojovém kódu, prezentovaném jako vlastní kód studentky, jsem potom našel skripty vykopírované z předmětu FPRG (Programování v bioinformatice), který několik let učím a poznám jej tedy, i když někdo zamění velké L za malé. I po formální stránce je předložená práce naprosto nedostatečná. Obrázky 1.1 a 1.2 ukazují to samé a jsou tedy redundantní. U obrázku 3.1 nejsem schopen zjistit, jestli není chráněn autorským právem a neměl by být odkazován, v každém případě je nutné podotknout, že obrázek je zaměřený na eukaryotní organismy a do práce tedy nepatří. Za obrázek pak určitě není možné považovat řadu 10 číslic, viz. Obrázek 7.1. Bloková schémata jsou velmi nepřehledná a nelze z nich pochopit, jak měl navržený program fungovat. Obrázek 9.1 pak také nepovažuji za obrázek, navíc nemůže být rozdělený na dvě strany. Z řady dalších nedostatků pak snad už jen zmíním, že rodové jméno musí být psáno velkým počátečním písmenem. Protože navržený postup nefunguje, nepodařilo se studentce dosáhnout žádných reálných výsledků a nemohla tedy nic diskutovat a zhodnotit. Navíc se pokusila srovnat genomy pouze 9 bakterií, což nelze považovat za rozsáhlý soubor. Zadání tak není splněno minimálně ve čtyřech z celkových pěti bodů. Pro nízkou úroveň úvodních kapitol, které jsou navíc nevhodně členěny, pak nepovažuji za splněný ani bod první. Celkově hodnotím práci jako zcela nedostatečnou, neboť neplní ani minimální požadavky k získání bakalářského titulu.

Navrhovaná známka
F
Body
25

Otázky

eVSKP id 110513