MACHALA, R. Porovnání a analýza syntetizátorů řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Posudky

Posudek vedoucího

Plchot, Oldřich

Student měl aktivní přístup k řešení problému, postupoval podle dohodnutého plánu a dodržoval termíny. Případné podněty z konzultací byly včas zapracovány. Při řešení zadání oceňuji vlastní aktivitu při hledání a studiu literatury a jejich následné zpracování.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Jedná se o mirně obtížnější zadání, kdy kromě pochopení principů fungování řečových syntetizátorů a jejich zprovoznění ve vlastním prostředí je student nucen pochopit mechanismus jejich trénováni, a ten následně adaptovat pro své experimenty. Práce má volnou návaznost na projekt Ministerstva vnitra ČR: Nástroje boje proti hlasovým DeepFakes. S dosaženými výsledky jsem spokojen.
Práce s literaturou V získávání a rešerši materiálů byl student důsledný a samostatný.
Aktivita během řešení, konzultace, komunikace Práce byla během celého období konzultována a student dodržoval dohodnuté termíny. Na konzultacích byl student vždy připraven a ty byly tím pádem produktivní. 
Aktivita při dokončování Práce byla dokončena v dostatečném předstihu a její obsah byl konzultován.
Publikační činnost, ocenění K práci se neváže další publikační činnost. Vytvořený software může najít uplatnění při vyhodnocování kvality různých syntetizátorů řeči ať už v projektech na UPGM/FIT nebo v komerci.
Navrhovaná známka
B
Body
85

Posudek oponenta

Brukner, Jan

Student ve své práci vytvořil aplikaci pro vyhodnocení syntetizátorů hlasu a vyzkoušel jej na šesti různých systémech. Dále bylo vytvořeno rozšíření toolkitu CoquiTTS pro adaptaci existujícího systému na nových datech. Obě části jsou funkční a vytvořená aplikace má i potenciál pro reálné využití. Navrhuji hodnocení stupněm B (80 bodů).

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Těžiště práce leží ve vyhodnocování a porovnávání systémů pro syntézu řeči, nikoliv v jejich vývoji, či rozšíření. Zadání hodnotím jako průměrně obtížné.
Rozsah splnění požadavků zadání Zadání bylo splněno.
Rozsah technické zprávy Práce je spíše kratší a několik stran (34 - 36) je vyplněno převážně grafy, které by bylo možné zhutnit, nicméně obsahuje všechny potřebné části a jednotlivé části jsou převážně informačně bohaté.
Prezentační úroveň technické zprávy 80 Práce čtenáře nejprve uvede do tématu syntetizátorů řeči, představí používané evaluační metriky a datové sady a následně představí implementovaný evaluační systém. Nakonec je popsáno vyhodnocení několika systémů pro syntézu hlasu. Kapitoly na sebe logicky navazují a text je pochopitelný. V pozdějších kapitolách (6 a 7) působí rušivě neustálé odkazování na již představené techniky. Sekce 7.4 působí velmi obecně na kapitolu o analýze výsledků, mohla by být umístěna v odkazované kapitole 2 o syntetizátorech.
Formální úprava technické zprávy 75 Práce je psaná v angličtině bez zjevných gramatických chyb. V práci se objevuje pouze několik překlepů ("evalaution"  -> "evaluation", obr. 6. 1). Tabulky mají proti zvyklostem popis pod tělem. Popisky u vygenerovaných grafů jsou příliš malé, na papíře ve formátu A4 je téměř nelze přečíst. Všechny grafy (histogramy) mají na vertikální ose popisek "frequency".
Práce s literaturou 70 Práce používá 37 převážně relevantních zdrojů. Student řádně odlišuje vlastní výsledky od převzatých. Některé bibliografické citace (nejméně [5, 7, 8, 17, 37]) jsou citovány jako pre-printy a ne jako konferenční články.
Realizační výstup 85 Hlavním výstupem práce je evaluační systém, na bázi klient-server architektury. Aplikace je funkční s přehledně zobrazeným vyhodnocením jednotlivých syntetizátorů. Oceňuji také možnost jednoduchého doplnění dalších vyhodnocovacích metrik. Dalším výstupem je sada skriptů pro adaptaci natrénovaného systému pro syntézu hlasu pomocí toolkitu CoquiTTS. Obě části jsou publikovány v jednotlivých repozitářích na serveru GitHub.
Využitelnost výsledků Vytvořený systém pro evaluaci syntetizátorů hlasu je přímo využitelný ať už pro výzkumníky v oboru nebo pro organizátory soutěží, ve kterých jsou dané systémy vyvíjeny.
Navrhovaná známka
B
Body
80

Otázky

eVSKP id 161248