BONDARENKO, M. Algoritmy pro detekci anomálií v datech z klinických studií a zdravotnických registrů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2018.
Maxim Bondarenko se ve své práci věnuje detekci anomálních záznamů v databázích pocházejících z klinického výzkumu. Diplomant svou práci realizoval ve spolupráci s Institutem biostatistiky a analýz s.r.o., kde mu byly dány k dispozici data ze tří uzavřených klinických studií a byly mu poskytnuty konzultace s manažery dat a konzultace se softwarovými vývojáři zdejšího EDC (electronic data capture) systému. Student těchto konzultací v rámci možností využil a vytvořil práci, která se v teoretické rovině věnuje aspektům kvality dat v klinickém výzkumu a v praktické části pak přináší možné řešení pro detekci potencionálně anomálních záznamů v jakékoli databázi vytvářené v systému CLADE-IS. Formální stránka práce trpí jazykovými nedostatky, jakkoli se student snažil kvalitu textu oproti semestrálnímu projektu vyplepšit, povedlo se mu to jen částečně. Pozitivně hodnotím studentovu velkou aktivitu při konzultacích a dále také praktickou softwarovou realizaci v Pythonu. Tato může být - i díky přímému napojení na SQL databáze - vodítkem pro budoucí realizaci monitoringu kvality dat v jakýchkoli databázích vytvářených v systému CLADE-IS. Zadání práce bylo splněno, student během realizace své diplomové práce prováděl řadu experimentů, kdy kombinoval různé metriky vzdálenosti či podobnosti a dále měnil nastavení jejich prahu. Výsledky těchto opakovaných experimentů v práci chybí, přičemž jejich grafické zpracování mohlo dát podklad pro zajímavou a užitečnou diskuzi.
Oponovaná diplomová práce si kladla za cíl u vybraného informačního systému provést pomocí statistických metod, metod strojového učení a metod rozpoznávání vzorů identifikaci anomálních záznamů a to včetně hodnocení úspešnosti detekce. Dále mělo být realizováno SW řešení, které vybrané metody implementuje. Nejprve je třeba se zmínit o formální stránce diplomové práce (DP). Oponent oceňuje, že zahraniční student realizoval DP v českém jazyce. Nicméně je třeba konstatovat, že přesto činilo oponentovi potíže některé věty pochopit a docházelo i k záměně pojmů, například „import“ za „export“, „strojové učení“ za „zdrojové učení“ atd. Tyto formální nedokonalosti lze jistě omluvit, nicméně formální stránku práce nelze pochopitelně hodnotit vysoko. Ani odborná stránka práce úroveň příliš nezvyšuje. Teoretická část práce je stručná, věnuje se v zásadě jen statistickým metodám a metody strojového učení, které jsou uvedeny v zadání práce, zmiňuje jen opravdu okrajově. Z teoretické části nevyplývá zřetelně, proč student volil metody, které následně využívá v aplikační části práce. Aplikační část popisuje praktický návrh klasifikátorů pro detekci anomálií v reálných datech a to včetně metody předzpracování dat. Realizované algoritmy jsou založeny na různých metrikách vzdáleností, které jsou více méně mechanicky testovány a jejich výsledky porovnávány. Za zásadní nedostatek považuji, že popis je velmi úsporný a pojmy a principy realizovaných postupů zůstávají nedostatečně popsány a vysvětleny, viz první dva dotazy níže. Neumožňují tak plné pochopení realizovaných kroků a snižují tak úroveň práce. Celkově práci hodnotím jako nepříliš zdařilou jak v odborné, tak aplikační části (v zásadě u dolní hranice pro DP). Pozitivně lze hodnotit realizaci SW kódu. Po pečlivém zvážení doporučuji práci k obhajobě s tím, dát studentovi možnost ji obhájit jako celek před odbornou komisí.
eVSKP id 110571