Posudky závěrečné kvalifikační práce

Pan Koreň vytvořil zajímavé a přínosné dílo, ve kterém zkombinoval přístupy XGBoost a BERT. Díky využití metody SHAP výsledné řešení nejen odhadne, zda text vytvořila umělá inteligence, ale také vysvětlí, které jeho pasáže nasvědčují použití AI a které naopak vykazují rysy „lidské“ tvorby. Součástí technické práce je také zhodnocení limitací práce a diskuse nad etickými aspekty. Nad rámec zadání student také implementoval webovou aplikaci s grafickým uživatelským rozhraním, která integruje vytvořené klasifikátory. Řešení bylo testováno v prostředí společnosti Lakmoos AI a aktuálně probíhá integrace do podnikového řešení. S ohledem na aktivitu studenta, funkční řešení, zajímavou kombinaci přístupů, publikační činnost a rozšíření nad rámec zadání hodnotím stupněm „A“.

Dílčí hodnocení
Kritérium	Známka	Body	Slovní hodnocení
Informace k zadání			Jednalo se o firemní zadání pro společnost Lakmoos AI, s.r.o. Cílem bylo vytvořit řešení, které rozpozná, zda je vstupní text generován umělou inteligencí.
Práce s literaturou			Student využil veškeré doporučené literatury a množství dalších relevantních zdrojů si samostatně dohledal.
Aktivita během řešení, konzultace, komunikace			Student byl během akademického roku aktivní a řešení průběžně konzultoval s vedoucím i zástupci společnosti Lakmoos. Dohodnuté termíny dodržoval a na schůzky docházel připraven.
Aktivita při dokončování			Práce byla dokončena v dostatečném předstihu před odevzdáním. Mé připomínky student následně zapracoval.
Publikační činnost, ocenění			Pan Koreň svou práci prezentoval na konferenci Excel at FIT . Zdrojové kódy realizačního výstup práce student zveřejnil jako Open-source pod licencí MIT na portálu GitHub: https://github.com/xkoren10/AI-Detector .

Posudek oponenta

Reš, Jakub

Celkově hodnotím práci známkou D. Na autorově práci je vidět úsilí, ale u diplomové práci by bylo vhod lepší metodiky při vypracování jak technického výstupu, tak zprávy.

Dílčí hodnocení
Kritérium	Body	Slovní hodnocení
Náročnost zadání		Vzhledem k implementační podstatě a možnostem využití existujících dat a technologií hodnotím toto zadání jako průměrně obtížné.
Rozsah splnění požadavků zadání		Zadání bylo splněno, nemám výhrady.
Rozsah technické zprávy		Technická zpráva je v rozsahu přibližně 78 normostran a splňuje tak obvyklé rozmezí. (Dle nástroje Theses Checker https://app.fit.vut.cz/theses-checker/ )
Prezentační úroveň technické zprávy	60	Prezentační úroveň první části práce je v celku ucházející, nicméně v technické části zaostává. Z práce není zřejmé, jak autor postupoval a tudíž by nebylo možné jednoduše práci zreplikovat (celá kapitola o implementaci klasifikátoru neobsahuje dostatečné informace o postupu trénování a evaluaci modelů). Dále by bylo vhodné zvážit více akademickou formu anglického jazyka pro méně zavádějící a subjektivní výrazy ("good enough", "might look something like", ...).
Formální úprava technické zprávy	55	Formální úprava zprávy silně zaostává za očekáváním u diplomové práce. V technické zprávě jsou velmi časté inkonzistence a absence referencí tabulek, figur, kapitol, i sekcí. Taktéž se velmi často objevuje nevhodné použití uvozovek a poznámek pod čarou (mnohé poznámky pod čarou by bylo možné zapracovat do textu práce či úplně vynechat). Ojediněle se v práci taktéž objevuje nevhodné zalomení citací a referencí poznámek pod čarou na nový řádek, nevhodné umístění citací (např. v nadpisu), chybějící popisy tabulek a (pro vědeckou práci) nevhodné anglické fráze.
Práce s literaturou	70	Diplomová práce obsahuje 35 citací, u přibližně čtvrtiny se nejedná o vědeckou literaturu a v ojedinělých případech se nejedná o relevantní literaturu. Některé zdroje ve zprávě nejsou uvedeny, například u Figure 2.2, u které chybí citace originálního zdroje.
Realizační výstup	75	Technický výstup práce byl prezentován jako aktivně nasazený nástroj v rámci firmy. Nicméně zdrojové kódy nejsou označeny hlavičkami a nelze tak jednoduše rozeznat autorovu práci. Dále pak postrádají přehledné uspořádání a dostatečnou dokumentaci (např. ipynb pro experimenty). Způsob testování modelů je taktéž nevhodný. Autor provedl výkonnostní testování, při kterém ovšem použil vzorek tytéž datové sady, jako pro trénování modelů a tedy dosáhl prakticky té samé accuracy. Testování výsledného produktu tedy postrádá robustnost a hraničí s irelevantním. Mimo zmíněné vnikla taktéž jako součást práce datová sada, kterou autor publikoval.
Využitelnost výsledků		Výsledkem práce je softwarové dílo, které je zamýšleno pro využití v praxi. Vzhledem k nedostatečně popsanému postupu trénování a testování modelů je ovšem zapotřebí další validace před samotným nasazením. Datová sada, která vznikla jako součást výstupu práce, se jeví jako využitelná.

Posudky

Posudek vedoucího

Hranický, Radek

Posudek oponenta

Reš, Jakub

Otázky