DVOŘÁK, J. Automatizované zpracování databází uniklých hesel [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Pluskal, Jan

Autor se zdatně zhostil nelehkého úkolu zpracování heterogenních souborů s uniklými hesly. Student demonstroval své programátorské kvality při návrhu a implementaci funkčního řešení zpracovávajícího "big data". Výsledek práce je prakticky uplatnitelný pro složky činné v trestním řízení. Navrhuji práci hodnotit jako velmi dobrou, stupněm B.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Práce navazuje na témata bezpečnostního výzkumu řešená v rámci výzkumné skupiny NES@FIT. Student shromáždil dataset o velikosti 1,1 TB, což značně přesahuje požadavek zadání. Rychlost zpracování tohoto datasetu je na velmi dobré úrovni. Z časových důvodů se nepodařilo provést komplexní porovnání vhodných existujících databází, jak bylo původně zamýšleno a je diskutováno v technologickém přehledu. Z tohoto důvodu jsem doporučil použít PostgreSQL.
Práce s literaturou Student si samostatně našel relevantní literární prameny.
Aktivita během řešení, konzultace, komunikace Konzultace probíhaly pravidelně zhruba dvakrát měsíčně. Student byl vždy připraven.
Aktivita při dokončování Student pracoval průběžně a finální obsah práce byl konzultován. Obsah práce byl korigován vzhledem k časovým možnostem autora během řešení práce a také s ohledem na přidělené výpočetní prostředky.
Publikační činnost, ocenění
Navrhovaná známka
B
Body
85

Posudek oponenta

Veselý, Vladimír

Výslednou práci hodnotím jako velmi dobrou (tedy stupněm B). Vzniklo nadprůměrné dílo, které technickou kvalitou svého zpracování předčilo alternativy, se kterými jsem měl možnost doposud pracovat.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Práce je součástí dlouhodobých výzkumných aktivit NES@FIT . Cílem práce bylo otestovat na reálných datech různé databáze, schémata a indexy pro uložení osobních dat z různých úniků či kompromitovaných služeb. Svou povahou se tedy jedná o průměrně obtížné zadání.
Rozsah splnění požadavků zadání Všechny body zadání byly splněny.
Rozsah technické zprávy Práce má 80 stran textu v husté LaTeXové šabloně, 87 stran i s pomocnými provozy. Dle nástroje https://app.fit.vut.cz/normostrany na počítání normostran, má i s pomocnými provozy 108 normostran. Kolem a kolem je tedy je tedy v obvyklém rozmezí BP.
Prezentační úroveň technické zprávy 85 Práce je čtivá a logicky strukturovaná. Její (pod)kapitoly navazují a kopírují myšlenkové postupy a pokroky studenta při řešení práce. Oceňuji zejméne Kapitolu 3, kterou může využít libovolný čtenář k rychlému zorientování se v problematice relačních vs. NoSQL databází.
Formální úprava technické zprávy 80 Práce je psána česky bez zasadních prohřešků vůči gramatice.
Práce s literaturou 60 Student v práci cituje z dostatečného (28 pramenů) množství relevantních zdrojů, kde majoritu tvoří online odkazy na zkoumané technologie a jejich dokumentace. Některé prameny však nejsou citovány dle normy správně (třeba takové [3-6], [10], [14-15] mají určitě špatně jméno autora). Některé citace jsou svým charakterem nadužívány, např. [8], kde místo celé knihy by bylo vhodnější citovat její části.
Realizační výstup 90 Technické řešení se sestává z řady modulů napsaných v jazyce C# sestávající se s desítek autorských souborů se zdrojovými kódy. Při živé demonstraci jsem ocenil zejména rychlost vyhledávání nad výslednou databází napříč všemi uživatelskými emaily dle podřetězce propojené s joiny na další tabulky (např. hesel). Zajímavé mi přišlo i naroubování Python knihovny charset_normalizer vylepšující schopnosti detekce kódování. Jednoznačně nejhodnotnější částí písemné zprávy je kapitola Implementace a jí předcházející testování databází, kde student hutně a extenzivně dokumentuje proces volby výsledného databázového enginu a analýzu výkonnosti té či oné části nad reálnými daty.
Využitelnost výsledků Práce má kompilační charakter a představuje vývoj softwarového díla (sadu nástrojů pro zpracování/uložení leaků a dotazování se nad nimi v databázi) při použití stávajících technologií (různé typy databází a následně PostgreSQL s různými jeho indexy) ve specifické doméně (databáze s jednoduchými tabulkami každá ale potenciálně o miliardách řádků a vazbami mezi nimi). Výsledek je poctivý, jeho použitelnost potenciálně velká, protože ukazuje, že dobře vyladěná relační databáze může dosahovat lepších výsledků než NoSQL, která se v této doméně obvykle používá.
Navrhovaná známka
B
Body
85

Otázky

eVSKP id 154440