Posudky závěrečné kvalifikační práce

Posudek vedoucího

Reš, Jakub

Dílčí hodnocení
Kritérium	Známka	Body	Slovní hodnocení
Informace k zadání			Cílem zadání bylo nastudovat problematiku bezpečnosti velkých jazykových modelů napříč jejich životním cyklem. V práci měla vzniknout rešerše metodiky modelování útočníka a existujících útoků na velké jazykové metody. Na základě rešerše měl vzniknout model útočníka, analýza rizik a vektory útoku na libovolně nasazený jazykový model a demonstrace alespoň třech vybraných útoků. Práce je průměrné obtížnosti vzhledem k volnosti výběru útoků a modelu dle potřeb demonstrace. Všechny body zadání byly splněny, přesto by demonstrace mohly být rozsáhlejší.
Práce s literaturou			Studentka vycházela z relevantních a aktuálních literárních zdrojů, které následně zahrnula do technické zprávy.
Aktivita během řešení, konzultace, komunikace			Práce byla pravidelně konzultována. Mimo pravidelné konzultace studentka dle potřeb postupy v práci diskutovala. Studentka vždy přicházela připravena a aktivně nacházela možnosti pokračování ve splnění zadání. V této oblasti nemám větších námitek. Jediným drobným nedostatkem byla příliš abstraktní diskuze nad demonstrační částí práce, kde mohlo dojít na podrobnější konzultace provedení experimentů.
Aktivita při dokončování			Práce byla dokončena s dostatečným předstihem a byla taktéž dostatečně konzultována.
Publikační činnost, ocenění

Navrhovaná známka: B

Body: 85

Posudek oponenta

Hranický, Radek

Bakalářská práce slečny Kejdové řeší vysoce aktuální téma a výsledky jsou přínosné. Potenciál práce je především výzkumného charakteru. Autorka se zaměřuje na stále málo probádanou oblast praktických útoků na velké jazykové modely a demonstruje jejich zranitelnosti při reálném nasazení. Práce tak přináší užitečné podněty pro další výzkum v oblasti zabezpečení AI systémů, ale také důležité informace pro vývojáře AI. Dílo zahrnuje ucelený přehled hrozeb a útoků na modely strojového učení, se zaměřením na velké jazykové modely (LLM). Jádrem práce je demonstrace tří typů útoků na lokálně nasazený jazykový model a vyhodnocení jejich úspěšnosti. Kamenem úrazu je bohužel malý rozsah práce a nízká úroveň detailu, což mi neumožňuje udělit vyšší hodnocení. Zejména kapitola 4 by si zasloužila více rozvést. Zajímavé by také bylo zkusit i další modely než jen LLaMA 3.2 1B Instruct a porovnat úspěšnost útoku napříč nimi - nicméně toto zadání přímo nevyžadovalo. Práci proto hodnotím jako "lepší C".

Dílčí hodnocení
Kritérium	Body	Slovní hodnocení
Náročnost zadání
Rozsah splnění požadavků zadání		Všechny body zadání považuji za splněné.
Rozsah technické zprávy		Práce v husté LaTeXové šabloně čítá 38 stran bez literatury a příloh. Dle app.fit.vut/thesis-checker jde o 48.58 normostran. Je tedy sice pod hranicí obvyklého rozsahu, avšak minimální rozsah stále splňuje.
Prezentační úroveň technické zprávy	71	Práce je logicky strukturovaná, pochopitelná a kapitoly na sebe přirozeně navazují. Je však dosti stručná. Kapitoly 2 a 3 jsou velmi pěkně zpracovány a i rozsahem jsou v pořádku. Kapitola 4 s návrhy vektorů útoku má však jen něco přes 5 stran a postrádá hloubku. Autorka v kapitole 3 zmiňuje, že pro popis vektorů útoku se používají strukturované přístupy jako attack trees, STRIDE, LINDUNN, nebo Cyber Kill Chain. Přesto žádný z těchto formálních rámců nepoužila a celý návrh je pouze v rovině obecného slovního popisu bez hlubších technických detailů, což je škoda. Kapitola 5 o praktické realizaci útoků je však popsána velmi pěkně a systematicky. Každý útok je vysvětlen krok za krokem, přičemž je zřejmá snaha o srozumitelnost i pro čtenáře, kteří nejsou hluboce obeznámeni s oblastí bezpečnosti AI. Všechny útoky byly reálně implementovány, otestovány a jejich průběh i výstupy jsou přehledně prezentovány. Přesto by se i zde dalo jít více do hloubky a zohlednit např. další vhodné metriky pro kvantifikaci úspěšnosti popsaných útoků.
Formální úprava technické zprávy	85	Drobným formálním nedostatkem je místy chybějící text mezi nadpisem a podnadpisem. U obrázků se schématy (např. 3.2, 3.3) by bylo vhodnější použít vektorový formát. U obrázku 2.2 by se hodilo trochu větší písmo. Jinak je formální stránka v pořádku. Všechny číslované grafy a tabulky jsou korektně odkazovány z textu. Práce je psána v angličtině s minimem pravopisných chyb. Jediný překlep, který jsem objevil, je zřejmě chybějící písmenko v popisku obrázku 3.3. Stylistika textu je také na velmi dobré úrovni. Text je čtivý a dobře pochopitelný.
Práce s literaturou	87	Práce s literaturou tvoří velmi silnou stránku práce. Autorka citovala celkem 46 vysoce relevantních zdrojů. Zejména přehledová kapitola č. 2 o existujících přístupech je velmi kvalitně zpracována. Jistým neduhem práce je časté citování celých odstavců, což není doporučenou praktikou, neboť lze pak špatně odlišit vlastní přínos autorky.
Realizační výstup	74	Realizační výstup představuje sadu skriptů pro interakci s modely o celkovém rozsahu 1157 řádků v jazyce Python a okolo 1400 řádků "otrávené" komunikace pro jailbreaking. Výsledek je funkční a autorka mi jej osobně demonstrovala. Byť se nejedná nejedná se o nijak závratně rozsáhlé, či implementačně náročné inženýrské dílo, řešení je přínosné a má silný výzkumný potenciál.
Využitelnost výsledků		Výsledky práce mají využití především v oblasti bezpečnostního testování AI systémů a při analýze jejich zranitelností. Praktické scénáře útoků mohou sloužit jako základ pro návrh obranných mechanismů nebo jako podklad pro další výzkum v oblasti bezpečnosti strojového učení. Práce také přispívá k lepšímu pochopení rizik spojených s nasazením jazykových modelů v reálných aplikacích.

Navrhovaná známka: C

Body: 78

Otázky

Pokud byste měla navrhnout obranný mechanismus proti popsaným útokům, jaké postupy byste vyzkoušela?
Při modelování útoků jste diskutovala také motivaci útočníka. Které konkrétní motivace podle vás představují největší praktickou hrozbu (např. reputační újma, finanční zisk apod.) a proč?