DVOŘÁK, J. Automatizované zpracování databází uniklých hesel [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Autor se zdatně zhostil nelehkého úkolu zpracování heterogenních souborů s uniklými hesly. Student demonstroval své programátorské kvality při návrhu a implementaci funkčního řešení zpracovávajícího "big data". Výsledek práce je prakticky uplatnitelný pro složky činné v trestním řízení. Navrhuji práci hodnotit jako velmi dobrou, stupněm B.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Práce navazuje na témata bezpečnostního výzkumu řešená v rámci výzkumné skupiny NES@FIT. Student shromáždil dataset o velikosti 1,1 TB, což značně přesahuje požadavek zadání. Rychlost zpracování tohoto datasetu je na velmi dobré úrovni. Z časových důvodů se nepodařilo provést komplexní porovnání vhodných existujících databází, jak bylo původně zamýšleno a je diskutováno v technologickém přehledu. Z tohoto důvodu jsem doporučil použít PostgreSQL. | ||
Práce s literaturou | Student si samostatně našel relevantní literární prameny. | ||
Aktivita během řešení, konzultace, komunikace | Konzultace probíhaly pravidelně zhruba dvakrát měsíčně. Student byl vždy připraven. | ||
Aktivita při dokončování | Student pracoval průběžně a finální obsah práce byl konzultován. Obsah práce byl korigován vzhledem k časovým možnostem autora během řešení práce a také s ohledem na přidělené výpočetní prostředky. | ||
Publikační činnost, ocenění |
Výslednou práci hodnotím jako velmi dobrou (tedy stupněm B). Vzniklo nadprůměrné dílo, které technickou kvalitou svého zpracování předčilo alternativy, se kterými jsem měl možnost doposud pracovat.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Práce je součástí dlouhodobých výzkumných aktivit NES@FIT . Cílem práce bylo otestovat na reálných datech různé databáze, schémata a indexy pro uložení osobních dat z různých úniků či kompromitovaných služeb. Svou povahou se tedy jedná o průměrně obtížné zadání. | ||
Rozsah splnění požadavků zadání | Všechny body zadání byly splněny. | ||
Rozsah technické zprávy | Práce má 80 stran textu v husté LaTeXové šabloně, 87 stran i s pomocnými provozy. Dle nástroje https://app.fit.vut.cz/normostrany na počítání normostran, má i s pomocnými provozy 108 normostran. Kolem a kolem je tedy je tedy v obvyklém rozmezí BP. | ||
Prezentační úroveň technické zprávy | 85 | Práce je čtivá a logicky strukturovaná. Její (pod)kapitoly navazují a kopírují myšlenkové postupy a pokroky studenta při řešení práce. Oceňuji zejméne Kapitolu 3, kterou může využít libovolný čtenář k rychlému zorientování se v problematice relačních vs. NoSQL databází. | |
Formální úprava technické zprávy | 80 | Práce je psána česky bez zasadních prohřešků vůči gramatice. | |
Práce s literaturou | 60 | Student v práci cituje z dostatečného (28 pramenů) množství relevantních zdrojů, kde majoritu tvoří online odkazy na zkoumané technologie a jejich dokumentace. Některé prameny však nejsou citovány dle normy správně (třeba takové [3-6], [10], [14-15] mají určitě špatně jméno autora). Některé citace jsou svým charakterem nadužívány, např. [8], kde místo celé knihy by bylo vhodnější citovat její části. | |
Realizační výstup | 90 | Technické řešení se sestává z řady modulů napsaných v jazyce C# sestávající se s desítek autorských souborů se zdrojovými kódy. Při živé demonstraci jsem ocenil zejména rychlost vyhledávání nad výslednou databází napříč všemi uživatelskými emaily dle podřetězce propojené s joiny na další tabulky (např. hesel). Zajímavé mi přišlo i naroubování Python knihovny charset_normalizer vylepšující schopnosti detekce kódování. Jednoznačně nejhodnotnější částí písemné zprávy je kapitola Implementace a jí předcházející testování databází, kde student hutně a extenzivně dokumentuje proces volby výsledného databázového enginu a analýzu výkonnosti té či oné části nad reálnými daty. | |
Využitelnost výsledků | Práce má kompilační charakter a představuje vývoj softwarového díla (sadu nástrojů pro zpracování/uložení leaků a dotazování se nad nimi v databázi) při použití stávajících technologií (různé typy databází a následně PostgreSQL s různými jeho indexy) ve specifické doméně (databáze s jednoduchými tabulkami každá ale potenciálně o miliardách řádků a vazbami mezi nimi). Výsledek je poctivý, jeho použitelnost potenciálně velká, protože ukazuje, že dobře vyladěná relační databáze může dosahovat lepších výsledků než NoSQL, která se v této doméně obvykle používá. |
eVSKP id 154440