Posudky závěrečné kvalifikační práce

Autor se zdatně zhostil nelehkého úkolu zpracování heterogenních souborů s uniklými hesly. Student demonstroval své programátorské kvality při návrhu a implementaci funkčního řešení zpracovávajícího "big data". Výsledek práce je prakticky uplatnitelný pro složky činné v trestním řízení. Navrhuji práci hodnotit jako velmi dobrou, stupněm B.

Dílčí hodnocení
Kritérium	Známka	Body	Slovní hodnocení
Informace k zadání			Práce navazuje na témata bezpečnostního výzkumu řešená v rámci výzkumné skupiny NES@FIT. Student shromáždil dataset o velikosti 1,1 TB, což značně přesahuje požadavek zadání. Rychlost zpracování tohoto datasetu je na velmi dobré úrovni. Z časových důvodů se nepodařilo provést komplexní porovnání vhodných existujících databází, jak bylo původně zamýšleno a je diskutováno v technologickém přehledu. Z tohoto důvodu jsem doporučil použít PostgreSQL.
Práce s literaturou			Student si samostatně našel relevantní literární prameny.
Aktivita během řešení, konzultace, komunikace			Konzultace probíhaly pravidelně zhruba dvakrát měsíčně. Student byl vždy připraven.
Aktivita při dokončování			Student pracoval průběžně a finální obsah práce byl konzultován. Obsah práce byl korigován vzhledem k časovým možnostem autora během řešení práce a také s ohledem na přidělené výpočetní prostředky.
Publikační činnost, ocenění

Posudek oponenta

Veselý, Vladimír

Výslednou práci hodnotím jako velmi dobrou (tedy stupněm B). Vzniklo nadprůměrné dílo, které technickou kvalitou svého zpracování předčilo alternativy, se kterými jsem měl možnost doposud pracovat.

Dílčí hodnocení
Kritérium	Body	Slovní hodnocení
Náročnost zadání		Práce je součástí dlouhodobých výzkumných aktivit NES@FIT . Cílem práce bylo otestovat na reálných datech různé databáze, schémata a indexy pro uložení osobních dat z různých úniků či kompromitovaných služeb. Svou povahou se tedy jedná o průměrně obtížné zadání.
Rozsah splnění požadavků zadání		Všechny body zadání byly splněny.
Rozsah technické zprávy		Práce má 80 stran textu v husté LaTeXové šabloně, 87 stran i s pomocnými provozy. Dle nástroje https://app.fit.vut.cz/normostrany na počítání normostran, má i s pomocnými provozy 108 normostran. Kolem a kolem je tedy je tedy v obvyklém rozmezí BP.
Prezentační úroveň technické zprávy	85	Práce je čtivá a logicky strukturovaná. Její (pod)kapitoly navazují a kopírují myšlenkové postupy a pokroky studenta při řešení práce. Oceňuji zejméne Kapitolu 3, kterou může využít libovolný čtenář k rychlému zorientování se v problematice relačních vs. NoSQL databází.
Formální úprava technické zprávy	80	Práce je psána česky bez zasadních prohřešků vůči gramatice.
Práce s literaturou	60	Student v práci cituje z dostatečného (28 pramenů) množství relevantních zdrojů, kde majoritu tvoří online odkazy na zkoumané technologie a jejich dokumentace. Některé prameny však nejsou citovány dle normy správně (třeba takové [3-6], [10], [14-15] mají určitě špatně jméno autora). Některé citace jsou svým charakterem nadužívány, např. [8], kde místo celé knihy by bylo vhodnější citovat její části.
Realizační výstup	90	Technické řešení se sestává z řady modulů napsaných v jazyce C# sestávající se s desítek autorských souborů se zdrojovými kódy. Při živé demonstraci jsem ocenil zejména rychlost vyhledávání nad výslednou databází napříč všemi uživatelskými emaily dle podřetězce propojené s joiny na další tabulky (např. hesel). Zajímavé mi přišlo i naroubování Python knihovny charset_normalizer vylepšující schopnosti detekce kódování. Jednoznačně nejhodnotnější částí písemné zprávy je kapitola Implementace a jí předcházející testování databází, kde student hutně a extenzivně dokumentuje proces volby výsledného databázového enginu a analýzu výkonnosti té či oné části nad reálnými daty.
Využitelnost výsledků		Práce má kompilační charakter a představuje vývoj softwarového díla (sadu nástrojů pro zpracování/uložení leaků a dotazování se nad nimi v databázi) při použití stávajících technologií (různé typy databází a následně PostgreSQL s různými jeho indexy) ve specifické doméně (databáze s jednoduchými tabulkami každá ale potenciálně o miliardách řádků a vazbami mezi nimi). Výsledek je poctivý, jeho použitelnost potenciálně velká, protože ukazuje, že dobře vyladěná relační databáze může dosahovat lepších výsledků než NoSQL, která se v této doméně obvykle používá.

Posudky

Posudek vedoucího

Pluskal, Jan

Posudek oponenta

Veselý, Vladimír

Otázky