BONDARENKO, M. Algoritmy pro detekci anomálií v datech z klinických studií a zdravotnických registrů [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2018.

Posudky

Posudek vedoucího

Schwarz, Daniel

Maxim Bondarenko se ve své práci věnuje detekci anomálních záznamů v databázích pocházejících z klinického výzkumu. Diplomant svou práci realizoval ve spolupráci s Institutem biostatistiky a analýz s.r.o., kde mu byly dány k dispozici data ze tří uzavřených klinických studií a byly mu poskytnuty konzultace s manažery dat a konzultace se softwarovými vývojáři zdejšího EDC (electronic data capture) systému. Student těchto konzultací v rámci možností využil a vytvořil práci, která se v teoretické rovině věnuje aspektům kvality dat v klinickém výzkumu a v praktické části pak přináší možné řešení pro detekci potencionálně anomálních záznamů v jakékoli databázi vytvářené v systému CLADE-IS. Pozitivně hodnotím studentovu velkou aktivitu při konzultacích a dále také praktickou softwarovou realizaci v Pythonu. Tato může být - i díky přímému napojení na SQL databáze - vodítkem pro budoucí realizaci monitoringu kvality dat v jakýchkoli databázích vytvářených v systému CLADE-IS. Zadání práce bylo splněno, student během realizace své diplomové práce prováděl řadu experimentů, kdy kombinoval různé metriky vzdálenosti či podobnosti a dále měnil nastavení jejich prahu. Oproti původně odevzdané verzi diplomové práce má nyní text lepší jazykovou úroveň, i když je zřejmé, že korektura byla provedena bez odborné znalosti problematiky. Věty mají kostrbatou stavbu, často nejsou voleny vhodné pojmy a slovní spojení (např. zdrojové učení místo strojové učení), text se nečte zrovna lehce. V praktické části práce student přepracoval ty záležitosti, které mu byly vytknuty při obhajobě. Práce tak nyní obsahuje popis generování umělých anomálií a je zde argumentace použití jednorozměrných statistických testů na odlehlé hodnoty.

Navrhovaná známka
D
Body
62

Posudek oponenta

Blaha, Milan

Oponent pro informaci uvádí i původní hodnocení práce, které zůstává z velké části v platnosti. Původní hodnocení práce: Oponovaná diplomová práce si kladla za cíl u vybraného informačního systému provést pomocí statistických metod, metod strojového učení a metod rozpoznávání vzorů identifikaci anomálních záznamů a to včetně hodnocení úspešnosti detekce. Dále mělo být realizováno SW řešení, které vybrané metody implementuje. Nejprve je třeba se zmínit o formální stránce diplomové práce (DP). Oponent oceňuje, že zahraniční student realizoval DP v českém jazyce. Nicméně je třeba konstatovat, že přesto činilo oponentovi potíže některé věty pochopit a docházelo i k záměně pojmů, například „import“ za „export“, „strojové učení“ za „zdrojové učení“ atd. Tyto formální nedokonalosti lze jistě omluvit, nicméně formální stránku práce nelze pochopitelně hodnotit vysoko. Ani odborná stránka práce úroveň příliš nezvyšuje. Teoretická část práce je stručná, věnuje se v zásadě jen statistickým metodám a metody strojového učení, které jsou uvedeny v zadání práce, zmiňuje jen opravdu okrajově. Z teoretické části nevyplývá zřetelně, proč student volil metody, které následně využívá v aplikační části práce. Aplikační část popisuje praktický návrh klasifikátorů pro detekci anomálií v reálných datech a to včetně metody předzpracování dat. Realizované algoritmy jsou založeny na různých metrikách vzdáleností, které jsou více méně mechanicky testovány a jejich výsledky porovnávány. Za zásadní nedostatek považuji, že popis je velmi úsporný a pojmy a principy realizovaných postupů zůstávají nedostatečně popsány a vysvětleny, viz první dva dotazy níže. Neumožňují tak plné pochopení realizovaných kroků a snižují tak úroveň práce. Celkově práci hodnotím jako nepříliš zdařilou jak v odborné, tak aplikační části (v zásadě u dolní hranice pro DP). Pozitivně lze hodnotit realizaci SW kódu. Po pečlivém zvážení doporučuji práci k obhajobě s tím, dát studentovi možnost ji obhájit jako celek před odbornou komisí. Nové hodnocení práce: Oponovaná diplomová práce si kladla za cíl u vybraného informačního systému provést pomocí statistických metod, metod strojového učení a metod rozpoznávání vzorů identifikaci anomálních záznamů a to včetně hodnocení úspešnosti detekce. Dále mělo být realizováno SW řešení, které vybrané metody implementuje. Nejprve je třeba se zmínit o formální stránce diplomové práce (DP). Oponent oceňuje, že zahraniční student realizoval DP v českém jazyce. Nicméně je třeba konstatovat, že i přes provedené korekce nadále činilo oponentovi potíže některé věty plně pochopit a práce obsahuje nadále formální nedokonalosti – například popisky grafů 5.2 – 5.4, dále zaměnění pojmů, například „hluků“ místo „shluků“, str. 40, odkaz na neexistující obrázek 5.12, strana 45. Přesto se formální stránka práce přece jen zlepšila. Práce byla doplněna o některé informace, přesto zůstávají v platnosti dříve uvedená konstatování - teoretická část práce je stručná, věnuje se v zásadě jen statistickým metodám a metody strojového učení, které jsou uvedeny v zadání práce, zmiňuje jen opravdu okrajově. Z teoretické části nevyplývá zřetelně, proč student volil metody, které následně využívá v aplikační části práce. Aplikační část, která byla rovněž částečně doplněna a revidována, popisuje praktický návrh klasifikátorů pro detekci anomálií v reálných datech a to včetně metody předzpracování dat. Realizované algoritmy jsou založeny na různých metrikách vzdáleností, které jsou testovány a jejich výsledky porovnávány. Popis je i přes doplnění úsporný a pojmy a principy realizovaných postupů zůstávají nepříliš jasně popsány a vysvětleny, viz první dva dotazy níže. Celkově práci hodnotím nadále jako nepříliš zdařilou jak v odborné, tak aplikační části. Pozitivně lze hodnotit realizaci SW kódu. Po pečlivém zvážení doporučuji práci opět k obhajobě s tím, dát studentovi možnost ji obhájit jako celek před odbornou komisí a za úpravu formální stránky práce a stručné doplnění práce navrhuji zvýšení původního bodového hodnocení. Dotazy pro studenta ponechávám v původním znění, pouze s drobnými formálními úpravami.

Navrhovaná známka
E
Body
57

Otázky

eVSKP id 112903