GAJDA, R. Převod šeptané řeči na normální [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Oceňuji hlavně odvahu k prozkoumání přístupu, u kterého nebylo dopředu jisté, zda povede k pozitivnímu výsledku. Bohužel nezbylo moc času na hlubší analýzu a porovnání natrénovaných modelů. Celkově navrhuji hodnocení stupněm C.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Zadání volně navazuje na předchozí bakalářskou práci. Nyní se zaměřuje na obecný model vhodný pro konverzi jakéhokoliv mluvčího. Analyzační část by mohla být rozpracovaná detailněji, nicméně zadání bylo splněno. | ||
Práce s literaturou | Student aktivně vyhledával relevantní zdroje a využíval zdroje doporučené. Místy ovšem chybělo hlubší porozumění pramenům. Většina zdrojů jsou přímo vědecké články. | ||
Aktivita během řešení, konzultace, komunikace | Během roku probíhaly pravidelné konzultace, na které se student většinou dostavil připravený. V zimním semestru a bohužel i při dokončování byla práce z objektivních důvodů na čas pozastavena. | ||
Aktivita při dokončování | Práce byla dokončována poměrně na poslední chvíli, nicméně jsem měl možnost text okomentovat a následně i nahlédnout do finálního textu. | ||
Publikační činnost, ocenění | Není mi známo. |
Ke kladům patří porozumění tradičním i současným technologiím pro modifikaci a syntézu řeči, zajímavý simulovaný korpus, natrénování funkčního systému pro převod šeptané řeči na normální a pěkná angličtina. Hodnocení snižuje velmi nevyrovnaná technická zpráva s nepříliš povedenými klíčovými pasážemi a chybějící detailnější popis výsledků.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Zadání vyžadovalo netriviální studium systémů hlubokého učení pro zpracování audia, i analytické práce s řečovými signály. Bylo také nutné se zorientovat v řadě různých datasetů a toolkitů. Na druhé straně bylo možné využít již existující dostupné kódy. | ||
Rozsah splnění požadavků zadání | Zadání bylo splněno, student vytvořil syntetickou šeptanou verzi populárního datasetu LibriTTS a pomocí ní natrénoval systém pro konverzi šeptané řeči na normální, který poskytl pro česká testovací data lepší výsledky než dostupné systémy postavené na velkých předtrénovaných modelech. Chyběl mi pouze popis a výsledky poslechových testů, které jsou v případě prací podobného typu nutností. Objem a kvalita technické práce jsou na slušné úrovni v rámci FIT. | ||
Rozsah technické zprávy | Rozsah práce odpovídá počtem stránek, obsahuje ale řadu přeskočitelných pasáží a nedostatečně se věnuje jádru práce – zevrubnému popisu skutečně použitých neurálních architektur a vykonaných experimentů. U práce tohoto typu bych také doporučoval vytvořit a v práci referencovat www stránku nebo sdílený adresář s příklady zdrojové a cílové řeči – jak pseudo-šeptané pro trénování, tak výsledky konverze. | ||
Prezentační úroveň technické zprávy | 70 | Práce trpí značnou nevyvážensotí a značnou variabilitou v hloubce zpracování – některé nepříliš podstatné sekce (např. o speaker embeddinzích) jsou zbytečně detailní, klíčové pasáže naopak nejsou samonosné, ale pouze odkazují články. Vadí také časté reference do budoucích kapitol. Popis výsledků experimentů je velmi minimalistický, jsou uvedeny číselné metriky, ale zcela chybí detailní diskuse případů, kdy systém fungoval, kdy naopak selhával, rozdílů mezi systémy natrénovanými na wTIMIT a na LibriTTS-PW, spektrogramy, atd. Je zřejmé, že práce byla dokončována narychlo. | |
Formální úprava technické zprávy | 80 | FORMÁLNÍ ÚPRAVA TECHNICKÉ ZPRÁVY 80 Práce má slušnou formální úroveň a je psána pěknou angličtinou. Typograficky a strukturně jsou v ní některé prohřešky, především v kombinaci matematiky a textu. Vlastních schémat obrázků obsahuje práce minimum, vygenerované obrázky (spektrogramy, spektra a signály) jsou kvalitní. Studentovi bude předán okomentovaný výtisk práce. | |
Práce s literaturou | 85 | Práce vychází většinově z konferenčních článků, seznam literatury je rozsáhlý a práce jsou dobře citovány a dobře využity, je ale potřeba dávat pozor na samonosnost textu, viz výše. Použité obrázky jsou dobře referencovány. Práce navazuje na bakalářskou práci diplomanta s podobným tématem, kterou jsem rovněž oponoval. I když diplomant na některých poznatcích a výsledcích své BP staví (používá např. český šeptaný dataset na vyhodnocení), DP obsahuje dostatečnou „deltu“ a je možné ji považovat za samostatnou kvalifikační práci. | |
Realizační výstup | 85 | Výstupem je sada nástrojů pro tvorbu pseudo-šeptaných řečových data a pro trénování systému pro převod šeptané řeči na normální. Velmi důležitý je vytvořený data-set LibriTTS-PW. Doporučuji publikovat kód, data a modely jako otevřené tak, aby se zvýšila viditelnost a citovanost práce (GitHub, HuggingFace, atd). | |
Využitelnost výsledků | Práce je po dopracování potenciálně využitelná v dalším výzkumu řečové skupiny, např. v projektu IARPA ARTS. Po podstatném dopracování by mohla být i dobrým kandidátem pro konferenční publikaci. |
eVSKP id 155732