MARTINKOVÁ, T. Konzervace pozice genů v bakteriálních genomech [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2018.
Studentka Tereza Martinková dopracovala bakalářskou práci na téma „Konzervace pozice genů v bakteriálních genomech“, kterou v prvním termínu neobhájila. Práce je vypracována na 23 stranách textu od úvodu po závěr, přičemž popis vlastního řešení a výsledků je na 9 stranách. Mnohé formální nedostatky byly odstraněny, stejně jako některé zavádějících či nedostatečně vysvětlených tvrzení v teoretické části práce. Avšak stále se v práci vyskytuje množství jiných formálních chyb, špatně srozumitelných vět a zavádějících tvrzení. Formální chyby např.: špatně umístěné čárky ve větách, většina obrázků a tabulek není zmíněna v textu, oba vzorce mají stejné číslo 7.1, tab. 5.5 desetinné tečky místo čárek, nejednotné formátování seznamu literatury, pro body zlomu se v některých příkladech používají tečky a někde čárky a mnohé další. Z dalších nedostatků bych především zmínila: v kap. 1.1 chybí popis struktury bakteriálního genomu z hlediska způsobu zápisu genetické informace (genetický kód, struktura genu), tvrzení, že epizom se dělí s chromozomem (asi se tím myslí replikace), str. 16 kódovací oblasti místo kódující, kap. 3 stručný popis nástrojů pro vyhledávání synteny bloků předchází vysvětlení pojmu synteny bloky a samotné následující vysvětlení pojmu je těžkopádné a hůře pochopitelné, kap. 3.2 spíš než evoluční procesy už popisuje breakpointovou metodu třídění, jejíž kapitola následuje a tato kapitola působí nedokončeně, kap. 3.3 není dostatečně vysvětleno, jak probíhá třídění pomocí reverzí, ve vzorci v kap. 3.3 není vysvětleno d(P) a v textu je uvedeno, že jedna reverze může snížit počet bodů zlomu nejvýše o 2, ale ve vzorci se počet zlomů dělí dvěma, kap. 5.2 mluví se o natrénování algoritmu místo odladění, a další. Přiložené programové řešení nelze jednoduše otestovat, neboť nebyla přiložena zkušební data. Referenční genom je napevno nastaven na název „ecoli_K12.gb“. Funkce pro vyhledání a zatřídění osamocených hodnot funguje trochu jinak, než jak je uvedeno v příkladu v textu. Funkce pro samotné třídění jsou pro mnohé jednoduché příklady pozičních vektorů nefunkční, např. když vektor neobsahuje žádnou osamocenou hodnotu. Vyhledávání stejných genů pomocí lokálního zarovnání místo algoritmu BLAST bylo mnou odsouhlaseno, stejně jako otestování alespoň na prvních 1000 genech E. coli, avšak prohledávat se měly celé ostatní genomy. Celkově je programové řešení na nízké úrovni, plné zbytečných cyklů a proměnných. Z textu práce je bohužel patrné, že studentka měla velké potíže s porozuměním odborného anglického textu týkající se problematiky, a především s jasnou formulací získaných poznatků. Ač studentka využila několika konzultací týkajících se programového řešení, je ze způsobu řešení zřejmá nedostatečná schopnost logického uvažování při řešení bioinformatické problematiky, i když bylo zadání práce po konzultacích značně zjednodušeno. První část mírně přepracované teoretické části práce byla předložena až 3. 8., zbytek textu práce 7. 8., přičemž termín odevzdání byl 8. 8. Bohužel musím konstatovat, že přepracovaná práce není z odborného hlediska na dostatečné úrovni.
Předmětem posudku je přepracovaná bakalářská práce studentky Terezy Martinkové, jejíž první verze neplnila ani minimální požadavky k získání bakalářského titulu. Byť jsou v práci patrné změny, část z nich spočívá pouze ve vypuštění sporných částí. Celá práce od úvodu po závěr je proto kratší a čítá 22 stran, z nichž pouze 9 je věnováno vlastním výsledkům. Hlavní přepracování teoretické části spočívá ve vypuštění části textu, který byl původně zaměřený za eukaryotické organismy. I tak jsou ale důležité kapitoly, např. kapitola pojednávající o mutacích, stále málo zaměřeny na prokaryotické organismy a často pojednávají o problematice spojené především s vyššími eukaryoty. Bohužel v práci stále zcela chybí teoretické kapitoly o bioinformatických nástrojích, které by studentce velmi pomohly zorientovat se lépe v tématu práce. Například kapitola o anotaci by měla zmiňovat anotační nástroje, alespoň ty základní z PGAP pipeline, jejíž anotaci pak studentka využívá v praktické části. Dále by jí pomohlo i nastudování algoritmů BLAST, či BLAT, které jsou v práci zmíněny bez dalšího popisu, či pracovních formátů pro práci s geny, jako např. formát *.gff. K praktické části pak studentka přistupuje zcela špatně, což je způsobeno jejími nedostatečnými znalostmi bioinformatiky. Výběrem 1000 genů se určitě nesníží výpočetní náročnost jejího extrémně neefektivního nástroje. Ta je neustále stejná. Jen to umožní spustit výpočet i na klasickém PC. Výsledky odvozené z 1000 genů z podstaty metody nemohou dávat smysl. Při výběru prvního tisíce genů by vzdálenost toho samého, pouze převráceného, genomu vůči své předloze byla nekonečná, přitom dle breakpointové metody by měla být vzdálenost rovna jedné. Těžko lze tedy výsledky, kterých studentka dosáhla, diskutovat. Dále vyhledávání genů podle stejného jména v praxi také nemůže fungovat, za ideálních podmínek pouze u genomů anotovaných stejným nástrojem. Správné je tedy vyhledávat na základě homologie. Opět ale zopakuji větu z mého původního posudku: “Je ale naprosto nemyslitelné používat samotné dynamické programování, pro množství zpracovávaných dat je nutné využití heuristických postupů.“ Použití S-W algoritmu je naprosto nevhodné. Stačilo by využít BLAST, který navíc může být velmi snadno zabalený do kódu Matlab, ve kterém studentka psala. Pro velkou výpočetní náročnost byla metoda otestována na pouhých 9 genomech, respektive pouze na cca pětinách těchto 9 genomů. Zadání tak v žádném případě není splněno minimálně ve dvou bodech. Po formální stránce bohužel práce obsahuje snad ještě více nedostatků než původní verze. Práce je velmi málo názorná a obsahuje pouze minimum ilustrací. A ty které jsou uvedené, pak nesouvisí s textem práce nebo jsou nevhodně umístěné, to lze pozorovat například na obrázku 5.1, který není odkazován v textu, či na obrázku 5.2, který je odkazován textem z jiné kapitoly, než ve které je umístěn. Podobně jsou na tom tabulky, kdy tabulky 5.3 a 5.4 nejsou vůbec odkazovány v textu. Rovnice 7.1 má pořád špatné vysvětlení, kdy parametr n neudává délku sekvence, ale délku pozičního profilu. V celé práci je spousta velmi těžko pochopitelných vět, zavádějících tvrzení a občas i zcela nesprávných pojmů. Na straně 27 studentka označuje proteinové sekvence za „translace“. Translace je ovšem proces překladu genetické informace z kodónů, tj. tripletů, do aminokyselin. Nechápu, že studentka oboru „Biomedicinské inženýrství a bioinformatika“ může dopustit takové chyby v práci, která má být završením jejího studia. Smutné je, že chyby tohoto charakteru původní verze neobsahovala. Nová verze například v anglickém abstraktu překládá hladové algoritmy jako „hungry algorithms“, původní verze je však uváděla správně jako „greedy algorithms“. Přitom v textu práce jsou pořád správně označeny jako greedy. Myslím, že tyto chyby pramení z faktu, že na opravdu práce, nevyhovující v tolika bodech zadání, nemohl čas cca 2 měsíců stačit. Dle mého názoru je přepracovaná práce v některých ohledech tedy ještě horší než její původní verze. V žádném případě ani přepracovaná verze neplní schválené zadání a neplní požadavky na tento typ práce kladené. Práci proto hodnotím jako naprosto nedostatečnou pro získání titulu bakalář.
eVSKP id 112916