POLIŠENSKÝ, J. Porovnání klasifikačních metod pro účely detekce maligních domén [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Pan Polišenský vytvořil velmi rozáhlé dílo, kde technická zpráva svou délkou a úrovní detailu odpovídá spíše práci disertační. Práce řeší aktuální výzvy (phishing, malware) v oblasti kybernetické bezpečnosti na Internetu a přímo reflektuje požadavky aplikačního garanta projektu MV ČR FETA, se kterým i student osobně komunikoval. Navržený vícestupňový klasifikační přístup je reakcí na poznatky plynoucí z řešení projektu, kde se dosavadní metody ukázaly jako nedostačující, neboť např. v akademické síti CESNET není reálné ke všem doménovým jménům sbírat data ze serverů RDAP, či extrahovat obsah webové stránky. Řešení pana Polišenského proto umožňuje provádět klasifikaci doménových jmen i na základě omezeného množství informací. Použitelnost implementovaného přístupu student důkladně ověřil nejen v laboratorních podmínkách, ale také na reálných datech z akademické sítě CESNET. Vytvořené řešení tak bude integrováno do budoucí verze nástroje DomainRadar, který vznikl v rámci projektu FETA. Diplomová práce obsahuje i několik rozšíření nad rámec zadání - např. extrakci nových příznaků na základě informací z certifikátů a spojení TLS a alternativní klasifikační přístupy. V důsledku rozsahu práce student na mé doporučení tato rozšíření umístil do příloh. Pana Polišenského vnímám jako studenta, který dokázal úspěšně skloubit magisterské studium, akademický výzkum a podnikatelskou činnost, přičemž vzniklá rozsáhlá diplomová práce je toho důkazem. S ohledem na systematický postup, rozsah realizovaných prací, studentův aktivní přístup, i publikační a další související tvůrčí činnost navrhuji hodnocení stupněm „A“.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Informace k zadání | Téma souvisí s výzkumným projektem MV ČR FETA, VJ02010024, kde student působil jako člen řešitelského týmu. Cílem práce bylo porovnat klasifikační přístupy pro detekci maligních doménových jmen v Internetu. | ||
| Práce s literaturou | Student využil doporučené literatury a samostatně si dohledal obrovské množství dalších zdrojů, přičemž všechny považuji za relevantní řešenému tématu. | ||
| Aktivita během řešení, konzultace, komunikace | Student se problematikou klasifikace doménových jmen zabývá již od své bakalářské práce. I přesto, že nemalé množství času věnuje svému start-upu, firmě Lakmoos AI, zvládal pan Polišenský své diplomové práci dát dostatek prostoru a jeho aktivita během řešení byla vysoce nadprůměrná. Na schůzky docházel připraven a řešení průběžně konzultoval s vedoucím, dalšími členy řešitelského týmu, i aplikačním garantem projektu. Z pohledu vedoucího bylo znát, že studenta práce baví a že je pro něj prioritou. | ||
| Aktivita při dokončování | Práce byla dokončena ve výrazném předstihu před odevzdáním. Její obsah jsem kontroloval a mé připomínky student následně zapracoval. | ||
| Publikační činnost, ocenění | Student zveřejnil zdrojové kódy svého díla jako Open-source pod licencí MIT na portálu GitHub: https://github.com/poli-cz/Domain-Ensemble-pipeline . Je také spoluautorem několika děl, která úzce souvisí s jeho diplomovou prací. Zejména publikací: HRANICKÝ, R.; HORÁK, A.; POLIŠENSKÝ, J.; JEŘÁBEK, K.; RYŠAVÝ, O.: Unmasking the Phishermen: Phishing Domain Detection with Machine Learning and Multi-Source Intelligence. In Proceedings of IEEE/IFIP Network Operations and Management Symposium 2024. Soul: Institute of Electrical and Electronics Engineers, 2024. p. 1-5. ISBN: 979-8-3503-2794-6. [CORE B] Detail HRANICKÝ, R.; HORÁK, A.; POLIŠENSKÝ, J.; ONDRYÁŠ, O.; JEŘÁBEK, K.; RYŠAVÝ, O.: Spotting the Hook: Leveraging Domain Data for Advanced Phishing Detection. In 2024 10th International Conference on Network and Service Management (CNSM). Praha: Institute of Electrical and Electronics Engineers, 2024. p. 1-7. ISBN: 978-3-903176-66-9. [CORE B] Detail HRANICKÝ R.; ONDRYÁŠ O; HORÁK A.; POUČ P.; JEŘÁBEK K.; EBERT T.; POLIŠENSKÝ J., A Multi-Dimensional DNS Domain Intelligence Dataset for Cybersecurity Research, Data in Brief, ISSN 2352-3409 (v recenzním řízení). Dále je spoluautorem několika vykázaných softwarových výstupů: Sada zásuvných modulů pro systém QRadar , software, 2024 - výstup V2 projektu FETA Domain Collector , software, 2023 Sada dat (DNS, IP, WHOIS/RDAP, TLS, GeoIP) k benigním a phishingovým doménám , software, 2023 DomainRadar - Detektor škodlivých domén (prototyp) , software, 2022 Aktuálně se podílí na přípravě dvou žurnálových publikací (IEEE Access, IEEE TIFS - obě Q1). Podílel se na realizaci dvou bezpečnostních workshopů (na DFRWS 2022, Oxford, UK a ARES 2023, Benevento IT) v rámci mezinárodního projektu DFIR, letní škole kyberbezpečnosti BISSIT a školeních bezpečnosti v rámci projektu EDIH CIH. Byl také zřejmě nejmladším členem organizačního výboru konference DFRWS EU 2025. |
Student odvedl mimořádně rozsáhlou a kvalitní práci, která vznikla jako součást výzkumného projektu. Výsledky práce jsou prakticky využitelné jak ve vývoji systémů pro klasifikaci doménových jmen, tak jako podklad pro další výzkumné aktivity. Text práce je přehledný a čtivý, s drobnými nedostatky v některých formulacích a kompozici některých kapitol. Ty však nijak nesnižují celkovou úroveň práce, která výrazně převyšuje běžný rámec diplomové práce. Některé dílčí výstupy byly již publikovány ve formě konferenčních příspěvků, což potvrzuje relevanci a kvalitu dosažených výsledků.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Náročnost zadání | Cílem práce bylo navrhnout a porovnat různé metody pro klasifikaci doménových jmen. Zadání lze označit za nadstandardně náročné vzhledem k požadovanému rozsahu, který zahrnoval nejen návrh klasifikačních metod, ale také vytvoření vhodné datové sady, implementaci několika různých přístupů a jejich následné vyhodnocení. Téma navíc vyžaduje kombinaci znalostí z oblasti strojového učení, síťové bezpečnosti a datové analytiky. | ||
| Rozsah splnění požadavků zadání | Zadání bylo splněno ve všech bodech. Zejména části týkající se návrhu metod a jejich experimentálního ověření (body 4 a 5) byly realizovány v rozsahu, který výrazně překračuje běžný rámec diplomové práce. | ||
| Rozsah technické zprávy | Práce obsahuje 167 normostran textu, což přesahuje obvyklý rozsah. Tento fakt je zčásti opodstatněný šířkou zvoleného tématu. Přesto by bylo vhodné některé části zestručnit bez ztráty informační hodnoty. To se týká např. detailního popisu systému DomainRadar či zpracování dat v rámci projektu FETA. | ||
| Prezentační úroveň technické zprávy | 80 | Zpráva je logicky strukturována a čtenář se v ní dobře orientuje. Některé kapitoly by však mohly být kompaktnější, zejména kapitoly 2 a 3. V kapitole 2.2, která má charakter přehledu současných přístupů (state-of-the-art), by bylo vhodnější zvolit syntetizující přístup – místo popisu jednotlivých článků za sebou by bylo přínosnější rozdělit přístupy do kategorií a diskutovat jejich společné rysy a rozdíly. V kapitole 3.1.3 se vyskytují formulace, které mohou být zavádějící – např. tvrzení, že hodnoty CN a SAN jsou použity v kryptografickém procesu, nebo že z informací v certifikátu je generován šifrovací klíč. Tyto formulace by bylo vhodné upřesnit, aby nedocházelo k dezinterpretaci. Kapitola 3.4 se z hlediska hlavního cíle práce jeví jako nerelevantní. Kapitola 4 popisuje vybrané metody strojového učení – i když tyto informace lze nalézt v literatuře, autor zde vhodně upozorňuje na aspekty, které bylo nutné zohlednit při jejich použití. Způsob prezentace v kapitole 4.6.1 je netradiční. Kapitola 5 opakuje některé již uvedené informace z kapitoly 3 a prezentuje architekturu systému, která s hlavním cílem práce souvisí jen okrajově. Naopak by zde bylo přínosné uvést více informací o procesu identifikace 263 příznaků. Kapitoly 9 a 10, které shrnují a diskutují dosažené výsledky, by bylo vhodné sloučit pro kompaktnost a přehlednost. | |
| Formální úprava technické zprávy | 90 | Formální úroveň práce je velmi dobrá. V textu se vyskytují pouze drobné typografické nedostatky (např. nadbytečné mezery, nevhodně umístěné odkazy, přehled na str. 10 apod.). Jazyková stránka je bez větších nedostatků – text je srozumitelný, stylisticky vyvážený a gramaticky správný. | |
| Práce s literaturou | 95 | V práci je citováno velké množství zdrojů, které by odpovídaly spíše disertační práci. Je zřejmé, že student čerpal i z činnosti v rámci výzkumné skupiny, nicméně v textu je dobře patrné, které části představují jeho vlastní přínos a které čerpají z existujících prací. | |
| Realizační výstup | 95 | Výstupem je funkční demonstrace systému pro klasifikaci doménových jmen, doplněná o rozsáhlou sbírku Python notebooků určených k analýze a testování různých klasifikačních metod. Součástí práce je rovněž vytvořená datová sada. Zdrojové kódy jsou psány v jazyce Python a odpovídají charakteru experimentální práce. Na jejich základě by bylo možné navržené řešení implementovat i v produkčním systému. | |
| Využitelnost výsledků | Některé výsledky práce byly v rámci výzkumné skupiny již publikovány: HRANICKÝ, R.; HORÁK, A.; POLIŠENSKÝ, J.; JEŘÁBEK, K.; RYŠAVÝ, O. Unmasking the Phishermen: Phishing Domain Detection with Machine Learning and Multi-Source Intelligence. In Proceedings of IEEE/IFIP Network Operations and Management Symposium 2024. Soul: Institute of Electrical and Electronics Engineers, 2024. p. 1-5. ISBN: 979-8-3503-2794-6. Detail HRANICKÝ, R.; HORÁK, A.; POLIŠENSKÝ, J.; ONDRYÁŠ, O.; JEŘÁBEK, K.; RYŠAVÝ, O. Spotting the Hook: Leveraging Domain Data for Advanced Phishing Detection. In 2024 10th International Conference on Network and Service Management (CNSM). Praha: Institute of Electrical and Electronics Engineers, 2024. p. 1-7. ISBN: 978-3-903176-66-9. |
eVSKP id 163352