KEJDOVÁ, K. Útoky na AI a modely strojového učení [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Informace k zadání | Cílem zadání bylo nastudovat problematiku bezpečnosti velkých jazykových modelů napříč jejich životním cyklem. V práci měla vzniknout rešerše metodiky modelování útočníka a existujících útoků na velké jazykové metody. Na základě rešerše měl vzniknout model útočníka, analýza rizik a vektory útoku na libovolně nasazený jazykový model a demonstrace alespoň třech vybraných útoků. Práce je průměrné obtížnosti vzhledem k volnosti výběru útoků a modelu dle potřeb demonstrace. Všechny body zadání byly splněny, přesto by demonstrace mohly být rozsáhlejší. | ||
| Práce s literaturou | Studentka vycházela z relevantních a aktuálních literárních zdrojů, které následně zahrnula do technické zprávy. | ||
| Aktivita během řešení, konzultace, komunikace | Práce byla pravidelně konzultována. Mimo pravidelné konzultace studentka dle potřeb postupy v práci diskutovala. Studentka vždy přicházela připravena a aktivně nacházela možnosti pokračování ve splnění zadání. V této oblasti nemám větších námitek. Jediným drobným nedostatkem byla příliš abstraktní diskuze nad demonstrační částí práce, kde mohlo dojít na podrobnější konzultace provedení experimentů. | ||
| Aktivita při dokončování | Práce byla dokončena s dostatečným předstihem a byla taktéž dostatečně konzultována. | ||
| Publikační činnost, ocenění |
Bakalářská práce slečny Kejdové řeší vysoce aktuální téma a výsledky jsou přínosné. Potenciál práce je především výzkumného charakteru. Autorka se zaměřuje na stále málo probádanou oblast praktických útoků na velké jazykové modely a demonstruje jejich zranitelnosti při reálném nasazení. Práce tak přináší užitečné podněty pro další výzkum v oblasti zabezpečení AI systémů, ale také důležité informace pro vývojáře AI. Dílo zahrnuje ucelený přehled hrozeb a útoků na modely strojového učení, se zaměřením na velké jazykové modely (LLM). Jádrem práce je demonstrace tří typů útoků na lokálně nasazený jazykový model a vyhodnocení jejich úspěšnosti. Kamenem úrazu je bohužel malý rozsah práce a nízká úroveň detailu, což mi neumožňuje udělit vyšší hodnocení. Zejména kapitola 4 by si zasloužila více rozvést. Zajímavé by také bylo zkusit i další modely než jen LLaMA 3.2 1B Instruct a porovnat úspěšnost útoku napříč nimi - nicméně toto zadání přímo nevyžadovalo. Práci proto hodnotím jako "lepší C".
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Náročnost zadání | |||
| Rozsah splnění požadavků zadání | Všechny body zadání považuji za splněné. | ||
| Rozsah technické zprávy | Práce v husté LaTeXové šabloně čítá 38 stran bez literatury a příloh. Dle app.fit.vut/thesis-checker jde o 48.58 normostran. Je tedy sice pod hranicí obvyklého rozsahu, avšak minimální rozsah stále splňuje. | ||
| Prezentační úroveň technické zprávy | 71 | Práce je logicky strukturovaná, pochopitelná a kapitoly na sebe přirozeně navazují. Je však dosti stručná. Kapitoly 2 a 3 jsou velmi pěkně zpracovány a i rozsahem jsou v pořádku. Kapitola 4 s návrhy vektorů útoku má však jen něco přes 5 stran a postrádá hloubku. Autorka v kapitole 3 zmiňuje, že pro popis vektorů útoku se používají strukturované přístupy jako attack trees, STRIDE, LINDUNN, nebo Cyber Kill Chain. Přesto žádný z těchto formálních rámců nepoužila a celý návrh je pouze v rovině obecného slovního popisu bez hlubších technických detailů, což je škoda. Kapitola 5 o praktické realizaci útoků je však popsána velmi pěkně a systematicky. Každý útok je vysvětlen krok za krokem, přičemž je zřejmá snaha o srozumitelnost i pro čtenáře, kteří nejsou hluboce obeznámeni s oblastí bezpečnosti AI. Všechny útoky byly reálně implementovány, otestovány a jejich průběh i výstupy jsou přehledně prezentovány. Přesto by se i zde dalo jít více do hloubky a zohlednit např. další vhodné metriky pro kvantifikaci úspěšnosti popsaných útoků. | |
| Formální úprava technické zprávy | 85 | Drobným formálním nedostatkem je místy chybějící text mezi nadpisem a podnadpisem. U obrázků se schématy (např. 3.2, 3.3) by bylo vhodnější použít vektorový formát. U obrázku 2.2 by se hodilo trochu větší písmo. Jinak je formální stránka v pořádku. Všechny číslované grafy a tabulky jsou korektně odkazovány z textu. Práce je psána v angličtině s minimem pravopisných chyb. Jediný překlep, který jsem objevil, je zřejmě chybějící písmenko v popisku obrázku 3.3. Stylistika textu je také na velmi dobré úrovni. Text je čtivý a dobře pochopitelný. | |
| Práce s literaturou | 87 | Práce s literaturou tvoří velmi silnou stránku práce. Autorka citovala celkem 46 vysoce relevantních zdrojů. Zejména přehledová kapitola č. 2 o existujících přístupech je velmi kvalitně zpracována. Jistým neduhem práce je časté citování celých odstavců, což není doporučenou praktikou, neboť lze pak špatně odlišit vlastní přínos autorky. | |
| Realizační výstup | 74 | Realizační výstup představuje sadu skriptů pro interakci s modely o celkovém rozsahu 1157 řádků v jazyce Python a okolo 1400 řádků "otrávené" komunikace pro jailbreaking. Výsledek je funkční a autorka mi jej osobně demonstrovala. Byť se nejedná nejedná se o nijak závratně rozsáhlé, či implementačně náročné inženýrské dílo, řešení je přínosné a má silný výzkumný potenciál. | |
| Využitelnost výsledků | Výsledky práce mají využití především v oblasti bezpečnostního testování AI systémů a při analýze jejich zranitelností. Praktické scénáře útoků mohou sloužit jako základ pro návrh obranných mechanismů nebo jako podklad pro další výzkum v oblasti bezpečnosti strojového učení. Práce také přispívá k lepšímu pochopení rizik spojených s nasazením jazykových modelů v reálných aplikacích. |
eVSKP id 165163