NEPRAŠOVÁ, K. Komunikační agent pro informace o Brně [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Smrž, Pavel

Z hlediska aktivity v obou semestrech hodnotím práci stupněm B - velmi dobře. Vytvořený systém dokáže pravidelně shromažďovat a zpracovávat data o nových událostech a poskytovat uživateli relevantní informace s využití konceptu RAG (Retrieval-Augmented Generation). Výsledek může sloužit jako základ pro navazující výzkum.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Zadání vyžadovalo nastudování problematiky trénování velkých jazykových modelů a vytváření komunikačních agentů s pravidelně aktualizovanou bází znalostí. Studentce se v rámci řešení podařilo překonat netriviální problémy, související s odlišností infrastruktury, využívající výkonné grafické karty, a vytvořit systém pro pravidelnou aktualizaci informací o brněnských událostech, který má potenciál být použit například v rámci informačních stránek pro návštěvníky Brna.
Práce s literaturou Studentka byla při získávání a využívání studijních materiálů k řešení diplomové práce velmi aktivní, pracovala s relevantními zdroji a podařilo se jí získat rozumný vhled do dané, velmi aktivní oblasti výzkumu.
Aktivita během řešení, konzultace, komunikace Aktivita během obou semestrů řešení práce byla soustavná, studentka mě pravidelně informovala o postupu a aktuálně řešených problémech, na konzultace byla vždy připravena.
Aktivita při dokončování Práce byla dokončena v určitém předstihu, neměl jsem však možnost konzultovat definitivní podobu technické zprávy před jejím odevzdáním.
Publikační činnost, ocenění -
Navrhovaná známka
B
Body
83

Posudek oponenta

Fajčík, Martin

Práca splnila zadanie, a snažila sa pokryť aj obsah naviac. Pri popise metód a dosiahnutých výsledkov je však vágna, nešpecifická a niekedy aj mätúca. Technické detaily obchádza a obsahuje značný podiel subjektivity. Nezaoberá sa tiež degradáciou riešenia spôsobenú kvantizáciou väčších modelov. Vytvorené riešenie funguje a je schopné používať rôzne jazykové modely ako základ pre beh aplikácie. V závislosti na vybranom spôsobe riešenia dotazu je jeho latencia vysoko variantná. Kedže práca má svoje kvality v realizačnom výstupe, navrhujem hodnotenie D.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadanie hodnotím ako menej obtiažne pretože: Nevyžaduje porozumenie aktuálnych metód pre tvorbu komunkačných agentov, iba "zoznámenie sa" s riešeniami a nástrojmi pre vytváranie takýchto agentov. Vyžaduje iba (všeobecné) užívateľské vyhodnotenie.
Rozsah splnění požadavků zadání Zadanie bolo splnené. Práca navyše poskytuje vyhodnotenie jednotlivých častí systému. Stručne popisuje tiež funkcionalitu metód využívaných pri práci s neurálnymi modelmi určenými pre spracovanie prirodzeného jazyka. Obsah práca podľa mňa odpovedá "priemerne náročnému zadaniu".
Rozsah technické zprávy
Prezentační úroveň technické zprávy 49 Hlavnými problémami práce sú vágnosť, nešpecifičnosť, a vyhýbanie sa formálnym popisom. Príklady: Abstrakt tvrdí že:     "Popisuje velké jazykové modely" -> aké?     "analyzuje existující technologie pro doménově specifické komunikační agenty" -> ako napríklad?      "srovnává vybrané jazykové modely na různých úlohách" -> aké?      "chýba popis zistení v práce, ktoré vyplývajú z jej výsledkov/analýz". Úvod: Práce se "soustředí na rozhraní mezi uživatelem a agentem, s důrazem na intuitivnost a efektivitu komunikace." - Nepostrehol som, že by sa efektivita a intuitivnost komunikace v práci hodnotila. Kap. 2.2.5 RAG: "Tato metoda zahrnuje bezproblémovou integraci externích informací pro generování přesnějších a informovanějších odpovědí". práca s nedefinovanými pojmami. Príklady: Čo táto práca považuje za "Large Language Model" nie je definované. Je Word2Vec popísaný v práci large language model? Kap 2.2.3: Adapter je prístup z "s nenáročnými parametry" . Premenné rovnice 4.1 nie sú všetky definované (čo je f, avgdl?) Strana 51: U rovnici k "Reciprocal Rank Fusion" nie sú vôbec definované premenné. Čo je "embedding" v rovnici 4.4? Čím je spočítaný? zmätky v teoretickej časti. ohľadom rozdielov medzi knižnicami a metódami. Knižnice PEFT a Adapters nie sú metódami.  Model LLAMA nie je založený na enkodér-dekodér architektúre ako tvrdí práca. doslovné prekladanie literatúry, vedúce k nepochopiteľným konštrukciám, z ktorých niekedy nevyplýva hlbšie porozumenie vysvetľovanému pojmu. vnitrní produkt (s. 18) / bodový součin (s. 19). odstavec nad rovnicou 4.4 (s. 57) je celý doslovne preložený z dokumentácie, vrátane pojmu "reverzní inženyrství", ktorý v preloženom kontexte nedáva zmysel. veľmi nízka  súvislosť medzi kapitolami 2/3 a kapitolou 4. Teoretická časť popisuje letmo rekurentné siete, transformer siete,  metódy pre adaptáciu veľkých jazykových modelov. Nepopisuje však následné použité modely a ich konkrétne architektúru a spôsob trénovania ako sú napríklad modely MiniLM (retrieval), BART-NLI, Mixtral, LLAMA. miešanie teoretickej a praktickej časti. Viď kapitola 4. subjektívne komentáre nepatriace do technickej správy. napr. s.47, termín "velmi pěkné výsledky". posledný odstavec záveru adresuje ako sa autorke páčila práca na danej téme.
Formální úprava technické zprávy 82 Iba drobné pochybenia: miešanie desatinných čiarok a bodiek, zápis 0.XXX, kde 0. je prefixom každého výsledku zbytočne zaberá miesto. chybajúce bodky na konci popisu (napr. Výpis 4.5, Tabuľka 4.1), Oceňujem tvorbu vlastných diagramov a ilustrácií.   Jazykovú stránku nemôžem hodnotiť.
Práce s literaturou 50 U niektorých metód a tvrdení chýbajú citácie na originálne dielo/podkladajúce fakty: Napr GPT-2, GPT-3 aj GPT-4, LLAMA (s.13). BART (s. 40). Posledná veta úvodu kapitoly 4.6 tvrdí že "Díky tomu (pozn. oponenta: názvu triedy na vstupe vektorizéru) bude mezi vektory jednotlivých tříd menší vzdálenost, což je též optimalizací následného vyhledávání.". Dôkazy chýbajú. S.41 autorka tvrdi že "Výkonnost modelu výrazně trpí při použití na domény, které se liší od jeho tréninkových dat – není vůbec adaptivní.". Dokladajúce dáta chýbajú. Väčšina citácií nie je správne formulovaná --- chýba miesto publikácie (konferencia, žurnál, preprint, a pod.). Niektoré modely nie sú citované článkom, ale odkazom na externé uložisko dát (huggingface) (s. 13, model T5).
Realizační výstup 75 Kód je zdokumentovaný pomocou README, je modulárny a okomentovaný. Študentka mi predviedla vytvorené riešenie. Modely boli použité v súlade s autorským právom. -20 bodov odoberám za nejasné vyhodnotenie modelu, ako napríklad: Neexistujúce inštrukcie pre anotátorov pri ľudskom vyhodnotení. Nedostatočný/vágny popis vybraných metrík. Neuvádzanie metrík u niektorých výsledkov. napr. Tabuľka 4.5. Občasné podozrivé výsledky nechané bez analýzy, komentára alebo hypotézy: Tabuľka 4.5: Ako mohol model llama2 nazbierať 0% "skóre" (asi presnosť) v každej kategórii? Nie je to horšie než náhodné? Ako to že v Tabuľke 5 beží 8b model llama3-8b pomalšie ako 70b model llama3-70b? Modely majú aj rovnakú architektúru. Podobné nezrovnalosti sú aj v ďalších tabuľkách. -5 bodov uberám za to, že užívateľ nemá možnosť vidieť v aplikácii dokumenty, ktoré jazykový model používa pre vytvorenie odpovede. 
Využitelnost výsledků Jedná sa o prácu kompilačného charakteru, z potenciálnym prínosom nových výsledkov. Práca prináša výsledky v oblasti "nápomocnosti" chatového agenta informujúceho o Brne, a prekonáva čistý model ChatGPT. Kvalita spôsobu vyhodnotenia je spochybniteľná.
Navrhovaná známka
D
Body
61

Otázky

eVSKP id 156444