SKORYK, M. Bioinformatická analýza dat hmotnostní spektrometrie v metabolomice [online]. Brno: Vysoké učení technické v Brně. Fakulta chemická. 2023.
Předložená práce je členěna do dvou teoretických kapitol, z nichž první zabírá širší kontext využití hmotnostní spektrometrie v metabolice, včetně bezprostředních medicínských aplikací, druhá je specificky zaměřena na metody „Molecular networking“, které jsou využity v praktické části. Prakticky zaměřené kapitoly ve standardní struktuře popisují používaná experimentální data (tedy v kontextu této práce „materiál“) a na ně aplikované metody; druhá pak prezentuje a diskutuje získané výsledky. Teoretická část systematicky pracuje s literaturou, cituje celkem 115 zdrojů, převážně článků v odborných časopisech biochemického a informatického zaměření, významně jsou zastoupeny aktuální publikace z let 2020—2022, a dle mých znalostí není žádná významná relevantní oblast opominuta. V části věnované experimentálním datům práce postihuje jejich relevantní charakteristiky, úspěšně se vyhýbá jejich nabízející se dezinterpretaci (kriticky hodnotí omezené možnosti dostupné knihovny anotovaných spekter), a korektně identifikuje problém zkreslení experimentálních dat derivatizací vzorku (dle mé zkušenosti je to problém společný pro řadu výpočetních postupů nad těmito daty). Hlavní experimentální část (6.2) systematicky prochází konstrukci molekulárních sítí s využitím čtyř identifikovaných metod porovnání spekter včetně prohledání prostoru jejich hyperparametrů, diskutuje vlastnosti dosažených výsledků s pomocí pěti charakteristik, a výsledky srovnává i s nízkodimenzionální projekcí dat. V závěru kapitoly jsou výsledky shrnuty do přehledné tabulky. Diskuse v každé části je vedena vyčerpávajícím způsobem, nechybí ani konfrontace dosažených výpočetních výsledků s jejich biochemickým významem. Závěr práce pak shrnuje dosažené výsledky na vyšší úrovni abstrakce, korektně přiznává místa (zejména týkající se metod založených na strojovém učení), kde nelze bez dodatečných experimentů vyslovit jednoznačné závěry (to ale jednoznačně přesahuje předpokládaný záměr práce). Rozsah hlavního textu práce je 84 stran včetně řady vhodně volených obrázků, schémat a grafů. Je psán anglicky na velmi dobré jazykové úrovni, typograficky je v pořádku až na drobné nedostatky (např. sazba anglických uvozovek), při bližším zkoumání je znát horší kvalita některých bitmapových obrázků, ale není na závadu jejich čitelnosti. Praktické výstupy jsou implementovány jako kód v programovacím jazyce Python, a jsou plně reprodukovatelné. Zadání práce požadovalo začlenění implementace do existující pipeline používané v centru Recetox. Tento požadavek byl v praktické části naplněn, výsledný kód bude zařazen do následující verze portálu UMSA. Text práce ale tuto skutečnost nijak nekomentuje, proto kritérium hodnotím známkou B. Řešení celé práce se poněkud táhlo, konzultace probíhaly pouze nárazově, a izolovaně bych pro toto kritérium dával pouze průměrnou známku C. Protože ale existují silné objektivní důvody, proč tomu tak bylo (studentova rodina je přímo zasažena ruskou agresí na Ukrajině), nezahrnuji tento nedostatek do celkového hodnocení.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Splnění požadavků zadání | B | ||
Studium literatury a její zpracování | A | ||
Využití poznatků z literatury | A | ||
Kvalita zpracování výsledků | A | ||
Interpretace výsledků, jejich diskuse | A | ||
Závěry práce a jejich formulace | A | ||
Využívání konzultací při řešení práce | C | ||
Celkový přístup k řešení úkolů | A |
Předložená diplomová práce se zabývá tvorbou a analýzou molekulárních sítí z dat získaných užitím hmotnostní spektrometrie. Srovnává zde čtyři vybrané podobnostní metriky pro jejich konstrukci a podrobně popisuje výsledky. Je dobře, že se autor v diskuzi neomezil pouze na prezentaci napočítaných statistik nad vzniklými sítěmi, ale dále ručně analyzuje jednotlivé případy. Jediné, co mi v závěru práce chybí, je nějaký soubor doporučení, jak konkrétně s výsledky naložit pro další navazující práci – zjevně totiž žádná metoda není nejlepší ve všech aspektech. Co se týče vlastního textu, ten je logicky členěn a dle mého názoru na velmi dobré úrovni. Obsahuje jen malé množství překlepů (např. v popisu obrázku 3.1 na str. 17 je uvedeno číslo 446.3162 místo 466.3162), jedinou větší výjimkou je zdvojený odstavec v sekci 5.3.1. Tyto drobnosti ale nemají vliv na celkový charakter textu. Typografická úroveň je také nadstandardní. Kladně hodnotím přítomnost Jupyter notebooků, které umožňují reprodukovat výsledky uvedené v práci. Škoda jen, že neobsahují i dodatečné členění a popisy, a spoléhají tak na princip „nejlepší dokumentace je kód samotný“. Finální verze by také nemusely obsahovat uložené chybové zprávy (např. v souboru ms2deepscore_model_training.ipynb).
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Splnění požadavků zadání | A | ||
Logické členění práce | A | ||
Kvalita zpracování výsledků | A | ||
Interpretace výsledků, jejich diskuse | A | ||
Využití literatury a její citace | A | ||
Úroveň jazykového zpracování | A | ||
Formální úroveň práce – celkový dojem | A | ||
Závěry práce a jejich formulace | B |
eVSKP id 140815