SETINSKÝ, J. Datové sady pro síťovou bezpečnost [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Tisovčík, Peter

Študent riešil obtiažnejšiu bakalársku prácu a jej riešeniu venoval značné úsilie. Pri riešení bol iniciatívny, pracoval samostatne a svedomite. Svoje výsledky pravidelne konzultoval. Jeho aktívnym prístupom boli splnené všetky body zadania. Oceňujem niekoľko rôznych porovnaní, ktoré sú doplnené rozsiahlymi experimentami a vyhodnotením na reálnych dátach. Prácu Jiřího Setinského hodnotím kladne, rovnako ako vytvorené riešenie. Navrhujem preto nadpriemerné hodnotenie A (výborne) a zároveň navrhujem prácu na Cenu dekana.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Zadanie považujem za náročnejšie pretože bolo potrebné vynaložiť značný čas na vytvorenie a otestovanie navrhnutých metód pre zlepšenie kvality dátových sád. Práca tiež obsahuje experimenty pre porovnanie vytvoreného riešenia s existujúcimi riešeniami. Študent splnil všetky body zadania.
Práce s literaturou Všetky štúdijné materiály si študent vyhľadával samostatne a zvolené zdroje pokrývajú riešenú problematiku a k ich voľbe nemám výhrady.
Aktivita během řešení, konzultace, komunikace Študent bol v priebehu práce aktívny, svoje riešenie priebežne konzultoval a na konzultácie bol vždy dobre pripravený.
Aktivita při dokončování Pri dokončovaní bola študentova aktivita intenzívnejšia. Výsledný obsah práce mi ale bol k dispozícii v dostatočnom predstihu a boli zapracované všetky podstatné pripomienky.
Publikační činnost, ocenění Práca bola publikovaná na študentskej konferencii Excel@FIT 2023, má ďalší publikačný potenciál a plánuje sa jej publikovanie.
Navrhovaná známka
A
Body
98

Posudek oponenta

Hranický, Radek

Diplomová práce pana Setinského má velký výzkumný potenciál a přináší zajímavé poznatky v oblasti zpracování datových sad pro metody strojového učení. Oceňuji především systematický přístup a podrobné experimentální vyhodnocení jednotlivých metod za použití vhodně zvolených metrik. Své dílo student také prezentoval na konferenci Excel at FIT, kde získal ocenění odborným panelem. Doporučuji hodnocení "A".

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadání bylo formulováno velmi obecně a umožňovalo tak celou práci pojmout různými způsoby. Autor zvolil postup, který vyžadoval detailně nastudovat a porovnat proměrně rozsáhlé množství metod strojového učení, souvisejících metrik a algoritmů. Hodnotím proto zadání jako obtížnější.
Rozsah splnění požadavků zadání Zadání bylo splněno v plném rozsahu a práce navíc obsahuje další rozšíření jako např. integraci metody PCA pro redukci počtu dimenzí, či porovnání více různých přístupů pro shlukování.
Rozsah technické zprávy Práce čítá bez příloh 66 stran vysázených v husté LaTeXové šabloně. Dle app.fit.vut.cz/normostrany práce vychází na 90.26 normostran. Je tedy v obvyklém rozmezí.
Prezentační úroveň technické zprávy 95 Práce má logickou strukturu, je dobře pochopitelná a jednotlivé kapitoly na sebe přirozeně navazují. Pasáže textu jsou vhodně doplněny schématy, grafy a diagramy, které názorně ilustrují diskutovanou problematiku. Kap. 2 je zpracována velice pěkně a mohla by sloužit i jako výukový materiál. V kap. 3 není úplně šťastné prolínání teorie a vlastního návrhu autora, neboť méně znalý čtenář nemusí pochopit, co je vlastně přínosem. Kap. 4 až 6 jsou napsány velmi zdařile. Zejména oceňuji detailní popis experimentů a diskusi k výsledkům. Mírnou výtku mám ke strukturování některých sekcí, např. rozdělování 2.3 na  2.3.1, když neexistuje 2.3.2.
Formální úprava technické zprávy 90 Sazba textu, tabulek a vzorců je řešena vhodně a práce je tak přehledná a dobře se čte. Mírně rušivým dojmem působí jen použítí více velikostí písma v jednom schématu (např. 5.3). U obr. 6.3 až 6.7 by bylo vhodné zvolit větší písmo, jelikož v tištěné verzi jde text obtížněji přečíst. K dokonalosti by to chtělo sjednotit font u grafů - např. někde jsou popisky os tučně, někde jiným písmem. Jazyková stránka je na velmi dobré úrovni, pominu-li drobné překlepy (např. schéma na obrázku 6.3).
Práce s literaturou 99 Autor čerpá z celkem 37 literárních pramenů. Drtivou většinu tvoří seriózní vědecké publikace z odborných žurnálů a konferenčních sborníků. Výběr je relevantní k řešenému tématu. Kvalita a kvantita bibliografie je na diplomovou práci nadprůměrná. Prohřešky vůči citační etice jsem neobjevil.
Realizační výstup 81 Realizačním výstupem je "Proof of concept" implementace navržených metod. Kód řeší celý proces od předzpracování datové sady, přes samotnou transformaci až po vizualizaci výsledků formou grafů. Kvantitativně dílo obsahuje něco přes tisíc řádků v jazyce Python. Mírně nezvyklá je skutečnost, že veškerý kód je v jediném souboru formátu Jupyter Notebook. Je však přehledný a dobře komentovaný. Výskyt zakomentovaných částí kódu je v některých případech (např. u konfigurace vzorkovací metody) akceptovatelný, neboť poskytuje určitou nápovědu, co je možné zvolit. Někde jde ale o zjevné pozůstatky z ladění a bylo by vhodné takovéto artefakty pročistit, protože zbytečně kazí dojem z jinak skvělé práce.
Využitelnost výsledků Přínos je především vědeckého charakteru. Práce představuje nové poznatky v oblasti redukce a agrace datových sad. Autor navrhl a porovnal metody, které umožňují tvořit kompaktní datové sady z existujících dat. Na základě takto modifikovaných dat lze trénovat klasifikátory v kratším čase při zachování, či dokonce i zvýšení úspěšnosti ve srovnání s použitím originální datové sady.
Navrhovaná známka
A
Body
95

Otázky

eVSKP id 148469