ŠAFÁŘ, M. Využití neuronových sítí pro analýzu sítě Bitcoin [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Student odvedl vynikající práci po obsahové i formální stránce, s výrazným přesahem směrem k výzkumu a publikovatelnosti výsledků. Oceňuji zejména jeho schopnost samostatně identifikovat slabiny současných přístupů a nabídnout vlastní, efektivní řešení, které má dalekosáhlý dopad do aplikační praxe. Po obsahové stránce bych neváhal tuto práci přirovnat k tezím disertační práce. Diplomovou práci Miroslava Šafáře hodnotím jako výjimečnou, s jejímiž výsledky jsem nadmíru spokojen.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Informace k zadání | Téma diplomové práce bylo velmi ambiciózní a svým rozsahem i hloubkou analytických i inženýrských částí výrazně přesahovalo standardní nároky kladené na diplomové práce. Práce se věnuje analýze a detekci nelegitimních bitcoinových transakcí s využitím metod strojového učení a zahrnuje jak teoretickou analýzu dostupných datasetů, tak návrh a evaluaci vlastního řešení. Zadání bylo beze zbytku splněno, přičemž výsledky práce značně předčily moje očekávání. Student nejen odhalil závažné nedostatky v nejpoužívanější datové sadě, ale zároveň navrhl prakticky využitelnou alternativu, která má významný přínos pro další výzkum i aplikační praxi. | ||
| Práce s literaturou | Student prokázal velmi dobrou orientaci v odborné literatuře a relevantních zdrojích. Kromě standardní rešerše odborných článků zahrnul i podrobnou analýzu existujících datasetů a přístupů ke klasifikaci blockchainových dat. V práci správně identifikoval limity jednotlivých řešení, což mu umožnilo kriticky zhodnotit aktuální stav a navrhnout vlastní zlepšení. Schopnost identifikovat relevantní zdroje a kriticky je využít hodnotím velmi pozitivně. | ||
| Aktivita během řešení, konzultace, komunikace | Práce byla vypracována průběžně a student byl po celou dobu řešení velmi aktivní. Dodržoval dohodnuté termíny, na konzultace byl vždy dobře připraven a jednotlivé části práce byly průběžně diskutovány a upravovány na základě zpětné vazby. Spolupráce probíhala naprosto bez problémů a student byl vždy otevřený návrhům a připomínkám. | ||
| Aktivita při dokončování | Diplomová práce byla dokončena s dostatečným předstihem před termínem odevzdání, což umožnilo podrobné revize a ladění formální i obsahové stránky. Finální verze byla plně konzultována. Student prokázal zodpovědný přístup a vysokou míru samostatnosti i při závěrečném zpracování. | ||
| Publikační činnost, ocenění | V průběhu práce vznikly podklady pro několik potenciálních publikačních výstupů, včetně návrhu na open-source zveřejnění nové datové sady, která řeší identifikované nedostatky aktuálních zdrojů. Vytvořená sada může sloužit jako základ pro další vývoj ML modelů aplikovatelných v oblasti forenzní analýzy kryptoměnových transakcí. Práce byla prezentována na konferenci Excel@FIT 2025, kde byla oceněna odbornou veřejností. Vzhledem k výjimečné kvalitě práce ji doporučuji k nominaci do soutěže IT SPY. |
Práci hodnotím jako výbornou (tedy stupněm A). Přijde mi, že předložená práce (jak technická zpráva, tak všechny části implementace) jsou vysoce nad standardem FIT VUT. Zároveň má práce tyto atributy - vychází z vědeckého základu, implementace je poctivým dílem softwarového inženýrství doprovozeného extenzivním testováním a analýzou, kde vše je nakonec open-source zveřejněné (a publikované v tomto případě a zatím jen na EXCEL@FIT). Přál bych FIT VUT co nejvíce studentů takovýchto kvalit!
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Náročnost zadání | Práce je součástí dlouhodobých výzkumných aktivit ve skupině NES@FIT. Svou šíří považuji zadání za značně obtížné, protože pro standardního studenta to představuje: seznámit se po techické stránce s rozsáhlou problematikou kryptoměn; následně nastudovat možnosti využití AI pro analýzu blockchainových dat; najít či vytvořit dataset (student zvládl obojí) a replikovat výsledky předchozích studií; implementovat vybrané metody se zaměřením na grafové neuronové sítě a porovnat výsledky. | ||
| Rozsah splnění požadavků zadání | Všechny body zadání byly splněny, kde za zásadní rozšíření považuji deanonymizaci datasetu Elliptic. | ||
| Rozsah technické zprávy | Práce má 46 stran textu v husté LaTeXové šabloně, 56 stran i s velmi relevantními pomocnými provozy. Dle nástroje https://app.fit.vut.cz/normostrany na počítání normostran, má dohromady 71,52 normostran, je tedy mírně pod obvyklým rozmezím normostran. | ||
| Prezentační úroveň technické zprávy | 100 | Práce je logicky strukturovaná. Její kapitoly navazují a kopírují body zadání i pokroky studenta při řešení práce. Kapitola 3 je hezkým shrnutím všeho podstatného v grafových neuronových sítích. | |
| Formální úprava technické zprávy | 95 | Práce je psána v češtině. Neshledal jsem žádné zásadní prohřešky vůči gramatice, stylistice ani typografii. V práci i přílohách (včetně Jupyter Notebooku) se vyskytuje celá řada relevantních grafů, kde za důležité (a informačně hodnotné) považuji korelační matice na obrázcích 4.3 a C.1. Snad jen některé grafy by mohly mít větší fonty v anotaci (např. 4.1), aby byly v tištěné podobě zřetelnější. Taktéž obrat "2 klíčové úlohy" bych spíše než číslicí uvitál číslovkou. | |
| Práce s literaturou | 95 | Oceňuji nadprůměrné množství vědeckých prací, a zároveň minimální výskyt online zdrojů v bibliografii. Z textu (kapitola 2 a 3) je patrné pochopení a správné použití těchto pramenů v kontextu práce. Jedinou drobničkou je, že bibliografický pramen [7] má špatnou syntaxi autorů. | |
| Realizační výstup | 100 | Implementace se skládá ze tří částí: 1) reverse engineering Elliptic datasetu; 2) nástroj pro tvorbu otevřeného datasetu; 3) reprodukce cizích výsledků / reimplementace metod za použití všech v práci zmíněných datasetů a jejich vyhodnocení. Ad 1) Záznamy v Jupyter Notebooku jsou pochopitelně anotované a sami od sebe snadno reprodukovatelné. Ad 2) Student nejprve implementoval prototyp pro tvorbu otevřené datové sady primárně s využitím jazyka Python, ale nebyl spokojený s jejím výkonem a paměťovými nároky, takže následně v letním semestru jeho podstatné části přeprogramoval do C#. Ad 3) Sada Python skriptů a souvisejících knihoven (např. scikit-learn, PyTorch) umožňující vícenásobné spouštění s různými konfiguračními parametry pro trénování a testování. U 2) a 3) jsou zdrojové kódy snadno čitelné. | |
| Využitelnost výsledků | Výsledkem celého úsilí je zjištění, že grafové neuronové sítě se nejeví v klasifikaci ilegálních transakcí lepší než Random Forest nebo XGBoost. Vědecká komunita zabývající se možnostmi analýzy blockchainu pomocí AI má k tomu nyní reprodukovatelné výsledky a nový dataset. Kromě toho platí, že je-li deanonymizace (byť i jen částečně) správná, má pomerně zásadní dopad na výsledky hned několika významných publikací (Q1 a Core A), které tento dataset využívají. V neposlední řadě vidím ve výstupu práce příležitost i pro komercializaci. Výstupy práce jsou využitelné těmi firmami, která se zabývají blockchainovou forenzní analýzou ať už pro bezpečnostní složky (pro dopátrávání zločinů), tak pro fintech sektor (pro aplikaci KYC a AML procedur). |
eVSKP id 164715