ŠAFÁŘ, M. Využití neuronových sítí pro analýzu sítě Bitcoin [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Posudky

Posudek vedoucího

Pluskal, Jan

Student odvedl vynikající práci po obsahové i formální stránce, s výrazným přesahem směrem k výzkumu a publikovatelnosti výsledků. Oceňuji zejména jeho schopnost samostatně identifikovat slabiny současných přístupů a nabídnout vlastní, efektivní řešení, které má dalekosáhlý dopad do aplikační praxe. Po obsahové stránce bych neváhal tuto práci přirovnat k tezím disertační práce. Diplomovou práci Miroslava Šafáře hodnotím jako výjimečnou, s jejímiž výsledky jsem nadmíru spokojen.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Téma diplomové práce bylo velmi ambiciózní a svým rozsahem i hloubkou analytických i inženýrských částí výrazně přesahovalo standardní nároky kladené na diplomové práce. Práce se věnuje analýze a detekci nelegitimních bitcoinových transakcí s využitím metod strojového učení a zahrnuje jak teoretickou analýzu dostupných datasetů, tak návrh a evaluaci vlastního řešení. Zadání bylo beze zbytku splněno, přičemž výsledky práce značně předčily moje očekávání. Student nejen odhalil závažné nedostatky v nejpoužívanější datové sadě, ale zároveň navrhl prakticky využitelnou alternativu, která má významný přínos pro další výzkum i aplikační praxi.
Práce s literaturou Student prokázal velmi dobrou orientaci v odborné literatuře a relevantních zdrojích. Kromě standardní rešerše odborných článků zahrnul i podrobnou analýzu existujících datasetů a přístupů ke klasifikaci blockchainových dat. V práci správně identifikoval limity jednotlivých řešení, což mu umožnilo kriticky zhodnotit aktuální stav a navrhnout vlastní zlepšení. Schopnost identifikovat relevantní zdroje a kriticky je využít hodnotím velmi pozitivně.
Aktivita během řešení, konzultace, komunikace Práce byla vypracována průběžně a student byl po celou dobu řešení velmi aktivní. Dodržoval dohodnuté termíny, na konzultace byl vždy dobře připraven a jednotlivé části práce byly průběžně diskutovány a upravovány na základě zpětné vazby. Spolupráce probíhala naprosto bez problémů a student byl vždy otevřený návrhům a připomínkám.
Aktivita při dokončování Diplomová práce byla dokončena s dostatečným předstihem před termínem odevzdání, což umožnilo podrobné revize a ladění formální i obsahové stránky. Finální verze byla plně konzultována. Student prokázal zodpovědný přístup a vysokou míru samostatnosti i při závěrečném zpracování.
Publikační činnost, ocenění V průběhu práce vznikly podklady pro několik potenciálních publikačních výstupů, včetně návrhu na open-source zveřejnění nové datové sady, která řeší identifikované nedostatky aktuálních zdrojů. Vytvořená sada může sloužit jako základ pro další vývoj ML modelů aplikovatelných v oblasti forenzní analýzy kryptoměnových transakcí. Práce byla prezentována na konferenci Excel@FIT 2025, kde byla oceněna odbornou veřejností. Vzhledem k výjimečné kvalitě práce ji doporučuji k nominaci do soutěže IT SPY.
Navrhovaná známka
A
Body
100

Posudek oponenta

Veselý, Vladimír

Práci hodnotím jako výbornou (tedy stupněm A). Přijde mi, že předložená práce (jak technická zpráva, tak všechny části implementace) jsou vysoce nad standardem FIT VUT. Zároveň má práce tyto atributy - vychází z vědeckého základu, implementace je poctivým dílem softwarového inženýrství doprovozeného extenzivním testováním a analýzou, kde vše je nakonec open-source zveřejněné (a publikované v tomto případě a zatím jen na EXCEL@FIT). Přál bych FIT VUT co nejvíce studentů takovýchto kvalit!

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Práce je součástí dlouhodobých výzkumných aktivit ve skupině NES@FIT. Svou šíří považuji zadání za značně obtížné, protože pro standardního studenta to představuje: seznámit se po techické stránce s rozsáhlou problematikou kryptoměn; následně nastudovat možnosti využití AI pro analýzu blockchainových dat; najít či vytvořit dataset (student zvládl obojí) a replikovat výsledky předchozích studií; implementovat vybrané metody se zaměřením na grafové neuronové sítě a porovnat výsledky. 
Rozsah splnění požadavků zadání Všechny body zadání byly splněny, kde za zásadní rozšíření považuji deanonymizaci datasetu Elliptic. 
Rozsah technické zprávy Práce má 46 stran textu v husté LaTeXové šabloně, 56 stran i s velmi relevantními pomocnými provozy. Dle nástroje https://app.fit.vut.cz/normostrany na počítání normostran, má dohromady 71,52 normostran, je tedy mírně pod obvyklým rozmezím normostran.
Prezentační úroveň technické zprávy 100 Práce je logicky strukturovaná. Její kapitoly navazují a kopírují body zadání i pokroky studenta při řešení práce. Kapitola 3 je hezkým shrnutím všeho podstatného v grafových neuronových sítích.
Formální úprava technické zprávy 95 Práce je psána v češtině. Neshledal jsem žádné zásadní prohřešky vůči gramatice, stylistice ani typografii. V práci i přílohách (včetně Jupyter Notebooku) se vyskytuje celá řada relevantních grafů, kde za důležité (a informačně hodnotné) považuji korelační matice na obrázcích 4.3 a C.1. Snad jen některé grafy by mohly mít větší fonty v anotaci (např. 4.1), aby byly v tištěné podobě zřetelnější. Taktéž obrat "2 klíčové úlohy" bych spíše než číslicí uvitál číslovkou.
Práce s literaturou 95 Oceňuji nadprůměrné množství vědeckých prací, a zároveň minimální výskyt online zdrojů v bibliografii. Z textu (kapitola 2 a 3) je patrné pochopení a správné použití těchto pramenů v kontextu práce. Jedinou drobničkou je, že bibliografický pramen [7] má špatnou syntaxi autorů.
Realizační výstup 100 Implementace se skládá ze tří částí: 1) reverse engineering Elliptic datasetu; 2) nástroj pro tvorbu otevřeného datasetu; 3) reprodukce cizích výsledků / reimplementace metod za použití všech v práci zmíněných datasetů a jejich vyhodnocení. Ad 1) Záznamy v Jupyter Notebooku jsou pochopitelně anotované a sami od sebe snadno reprodukovatelné. Ad 2) Student nejprve implementoval prototyp pro tvorbu otevřené datové sady primárně s využitím jazyka Python, ale nebyl spokojený s jejím výkonem a paměťovými nároky, takže následně v letním semestru jeho podstatné části přeprogramoval do C#. Ad 3) Sada Python skriptů a souvisejících knihoven (např. scikit-learn, PyTorch) umožňující vícenásobné spouštění s různými konfiguračními parametry pro trénování a testování. U 2) a 3) jsou zdrojové kódy snadno čitelné.
Využitelnost výsledků Výsledkem celého úsilí je zjištění, že grafové neuronové sítě se nejeví v klasifikaci ilegálních transakcí lepší než Random Forest nebo XGBoost. Vědecká komunita zabývající se možnostmi analýzy blockchainu pomocí AI má k tomu nyní reprodukovatelné výsledky a nový dataset. Kromě toho platí, že je-li deanonymizace (byť i jen částečně) správná, má pomerně zásadní dopad na výsledky hned několika významných publikací (Q1 a Core A), které tento dataset využívají. V neposlední řadě vidím ve výstupu práce příležitost i pro komercializaci. Výstupy práce jsou využitelné těmi firmami, která se zabývají blockchainovou forenzní analýzou ať už pro bezpečnostní složky (pro dopátrávání zločinů), tak pro fintech sektor (pro aplikaci KYC a AML procedur).
Navrhovaná známka
A
Body
100

Otázky

eVSKP id 164715