LUNER, M. Personalizace systémů syntézy hlasu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Spolupráce s panem Lunerem byla nanejvýše radostná. Postup probíhal rychlým tempem s vysokým nasazením a část udělané práce se tak ani nevešla do výsledného textu. Kromě samotných modelů a vyhodnocení student nad rámec zadání také vytvořil mobilní aplikaci, která usnadňuje použití systémů. Rád bych práci navrhl na některé ocenění, například Cenu děkana.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Jedná se o náročnější zadání, které vyžaduje nastudování technik, z nichž některé se nevyučují ani v pokročilejších kurzech magisterského studia. Zadání bylo splněno nad očekávání, v rámci práce byly vytvořeny dva kvalitní datasety použitelné pro trénování systémů pro syntézu hlasu a zároveň byla detailně provedena analýza a vyhodnocení natrénovaných systémů. | ||
Práce s literaturou | Pan Luner aktivně studoval vhodné zdroje, ať už online články nebo vědeckou literaturu. Pokud jsem jej upozornil na zajímavý zdroj, většinou jej měl na další konzultaci nastudovaný, či naimplementovaný. | ||
Aktivita během řešení, konzultace, komunikace | Student byl nadprůmerně aktivní v průběhu celého roku. Na konzultace chodil připravený a vždy bylo hotovo plno práce. V případě nejasností v teoretické části měl pan Luner vždy zformulované konkrétní otázky. | ||
Aktivita při dokončování | Práce byla hotová v předstihu, měl jsem dostatek času si zkontrolovat i finální verzi textu. | ||
Publikační činnost, ocenění | Práce byla prezentována jako poster na konferenci Excel@FIT . S pár přidanými experimenty by mohla být publikována i jako odborný článek. |
Příkladná práce jak technická tak editorská, jedná se o vynikající práci se širokým potenciálem využití a dalšího rozvoje, textová část bylo velmi příjemné čtení, kromě pěkného hodnocení navrhuji i na některou z cen za nejlepší práci.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Na bakalářské úrovni náročné zadání vyžadující dostudování signálů, ale především moderních architektur neuronových sítí pro zpracování signálů. Zadání se dalo uchopit i formou „pospojuju černé krabičky“, ale student se snažil porozumět problematice. | ||
Rozsah splnění požadavků zadání | Zadání bylo splněno, výsledná syntéza je velmi kvalitní a práce obsahuje řadu podrobných analýz. Vytvořená aplikace je mírně nad požadavky zadání, co zadání rozšiřuje je kvalita a objem vyhodnocení (různé metriky, včetně MOS měřeného skupinou posluchačů) a jeho interpretace. | ||
Rozsah technické zprávy | Vyrovnaná práce, popis neurálních technik by se dal zvládnout lépe, ale pro BP je i tato část kvalitní, zbytek práce je velmi kvalitní. Velice oceňuji „no-bullshit“ styl, vše, co je v práci, je relevantní pro pochopení, co se skutečně dělalo. | ||
Prezentační úroveň technické zprávy | 95 | Vyvážená struktura, dobrá čitelnost a styl. Vynikající forma presentace a analýzy výsledků v tabulkách a grafech. | |
Formální úprava technické zprávy | 90 | Velmi dobrá angličtina s jasným vyjadřováním, téměř bez chyb, bez rozdílu mezi převzatými a vlastními částmi. Drobné formální chyby u matematiky a obrázků, student dostane okomentovaný výtisk práce s detaily. | |
Práce s literaturou | 95 | Příkladná, dlouhý seznam literatury, která byla skutečně čtena a použita, na citační etiku byl kladen důraz. | |
Realizační výstup | 90 | Syntéza z textu (TTS) velmi přesně zachycující hlas a styl mluvy cílového mluvčího, řada velmi obsáhlých a výborně provedených analýz a pipeline pro přípravu trénovačích dat pro TTS. Navíc k zadání webová aplikace. | |
Využitelnost výsledků | Velice využitelné jak při tvorbě aplikace pro personalizovanou TTS, včetně tvorby deepfakes (možných nebezpečí si student je vědom) i při další práci skupin Speech a Security na FIT. Práce byla presentována na Excel, doporučuji i presentaci na „lepší“ konferenci. |
eVSKP id 145045