STANĚK, V. Diferenční detekce deepfake reči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Firc, Anton

Tato práce splňuje všechny požadavky zadání ve vysoké kvalitě a dodatečně je i rozšiřuje. Svým rozsahem a kvalitou výsledků převyšuje standardní očekávání. Výstupy práce přinášejí nové důležité znalosti využitelné pro další výzkum v oblasti. Práce byla perfektně zpracována jak po technické, tak i formální stránce.  Navrhuji tuto práci na jedno z možných ocenění a nominaci do soutěže IT SPY 2024.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Zadání této práce bylo výzkumně náročné. Vyžadovalo hluboké pochopení problematiky, přenos znalostí z jiné domény a experimentální implementaci. Student využil volnosti zadání a práci zpracoval perfektně. S dosaženými výsledky jsem velmi spokojen.
Práce s literaturou Student pracoval s literaturou velmi dobře, získal a využil mnoho odborných relevantních zdrojů, které si nalezl samostatně. Aktivně vyhledával nejnovější informace a dokázal je efektivně aplikovat do své práce.
Aktivita během řešení, konzultace, komunikace Student byl během řešení velmi aktivní. Pravidelně se účastnil konzultací, na které byl vždy dobře připraven a prezentoval významný pokrok v řešení. Termíny dohodnuté pro konzultace vždy dodržel a prokázal schopnost efektivní komunikace.
Aktivita při dokončování Práce byla dokončena s dostatečným předstihem, a všechny připomínky byly zapracovány.
Publikační činnost, ocenění Práce byla prezentována na studentské konferenci Excel@FIT kde získala i jedno z ocenění. Díky výrazné spolupráci studenta byla sepsána do formy článku a odeslána na konferenci International Joint Conference on Biometrics (IJCB 2024). Publikační aktivita a účast na konferencích dokazuje vysokou kvalitu a přínos práce.
Navrhovaná známka
A
Body
97

Posudek oponenta

Černocký, Jan

Ke kladům patří velké množství kvalitní výzkumné práce, výsledky srovnatelné na mezinárodní úrovni, spolupráce na výzkumném projektu, pěkný článek na Excelu včetně Ocenění odborným panelem a pěkná angličtina. Hodnocení ale snižují chybějící důležité technické detaily ve zprávě. V případě vynikající obhajoby a dobrého hodnocení vedoucího doporučuji komisi zvážit i hodnocení A.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadání vyžadovalo velmi netriviální studium systémů pro detekci hlasových deepfakes (DF), metod jejich ověřování, tvorby datových sad, ale i přehled o tvorbě DF pomocí technik konverze hlasu (VC) a text-to-speech syntézy (TTS).
Rozsah splnění požadavků zadání Zadání je splněno s podstatnými rozšířeními, kromě navrženého systému pro diferenciální DF detekci byly testovány i systémy, které pracují s konkatenací testovací a bona-fide nahrávky, je provedena řada srovnání s existujícími pracemi a objem technické práce překračuje množství obvyklé u diplomových prací na FIT.
Rozsah technické zprávy Rozsah je obvyklý, práce pokrývá velmi pěkně základy detekce DF a diferenční detekci DF v oblasti obrazů. Přivítal bych více pozornosti ve studiu podobných DF detekčních systémů (např. „Speaker-targeted Synthetic Speech Detection“, Sandia Tech. Report 2022) a především více pozornosti u detailního technického popisu dat a testovaných systémů.
Prezentační úroveň technické zprávy 85 Zpráva je dobře strukturovaná, student píše výbornou, až literární angličtinou, kapitoly jsou ale nevyvážené (viz výše), větší prostor měl být věnován technickým detailům (např. klíčové technice MHFA nebo popisu dat je věnován minimální prostor). Diskusi by bylo dobré kromě směru „VC versus TTS“ (toto je pokryto) vést také směrem „v trénování viděné vs. neviděné VC či TTS přístupy“. Doporučuji rovněž snížit podíl superlativních přídavných jmen, práce má sloužit jako technická zpráva, nikoliv jako „PR“ publikace.
Formální úprava technické zprávy 90 Práce má slušnou formální úroveň, je velmi pěkně provedena typograficky, výsledky jsou velmi přehledně presentovány. U zásadní tabulky 5.1 bych doporučoval doplnění sloupcovými grafy umožňující rychlé srovnání systémů a jejich trendy. Výsledky také zcela jistě není nutné uvádět na 4 desetinná místa.
Práce s literaturou 95 Práce vychází většinově z konferenčních článků, seznam literatury je velmi rozsáhlý a práce jsou dobře citovány a dobře využity. Na některých místech by bylo vhodné vyfiltrovat články nižší kvality, takové je pro studenta velmi náročné rozlišit. Použité obrázky, software atd jsou dobře referencovány.
Realizační výstup 95 Výstupem je sada nástrojů pro diferenční detekci DF, jedná se o pokročilou výzkumnou práci, která je využitelná mezinárodním měřítku. Doporučuji publikovat kód a modely jako otevřené tak, aby se zvýšila viditelnost a citovanost práce (GitHub, HuggingFace, atd).
Využitelnost výsledků Práce je využitelná v dalším výzkumu bezpečnostní a řečové skupiny a v projektu podporovaném MV ČR. Student již publikoval výsledky na Excel@FIT, po dopracování je práce dobrým kandidátem i pro mezinárodní konferenční nebo časopiseckou publikaci.
Navrhovaná známka
B
Body
88

Otázky

eVSKP id 152826