LIČKA, Z. Reverzibilnost metod pro změnu hlasu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Malinka, Kamil

Jedná se o výborně zpracovanou diplomovou práci, kde si student poradil s výzkumnou nejistotou a úspěšně navrhl a ověřil metody pro získávání původního hlasu z modifikované nahrávky. Student byl po celou dobu řešení projektu samostatný a proaktivní, přinášel vlastní myšlenky, jak zadaný problém řešit. Práce přináší i nové zajímavé výsledky vhodné k dalšímu výzkumu. Pozitivně hodnotím i vypracování v angličtině a ochotu účastnit se na konferenci Interspeech 2024. Dávám komisi ke zvážení, zda tuto práci nenavrhnout na jedno z možných ocenění.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Obtížnost zadání hodnotím jako nadprůměrnou, protože řeší čerstvé výzkumné téma, které reflektuje vývoj deeplearningu a jeho dopad na oblast bezpečnosti, a které vyžadovalo samostatnou výzkumnou činnost studenta. Jedná se výzkumnou práci, která řeší inovativní myšlenku, které zatím není v komunitě zpracována. Cílem bylo investigovat způsoby, jak získat původní hlas ze vzorků zpracovaných AI nástroji pro změnu hlasu. Student navrhl 3 přístupy a dva z nich implementoval a experimentálně ověřil. Práce považuji za složitou primárně z důvodu velké výzkumné nejistoty. Student splnil všechny body zadání ve výborné kvalitě, navíc místo očekávané jedné metody navrhl hned tři.
Práce s literaturou Student aktivně vyhledával relevantní dostupnou literaturu a vhodně ji začlenil do své práce. Student zvládl vstřebat i množství aktuálních odborných článků.
Aktivita během řešení, konzultace, komunikace K aktivitě studenta nemám jedinou výtku. Pravidelně se účastnil konzultací k DP, na které chodil připraven. Sám přicházel s nápady, jak práci dále posunout a výborně je komunikoval. Výsledky byly tvořeny průběžně. Student měl vědecký a systematický přístup. 
Aktivita při dokončování Student obsah práce konzultoval průběžně a její definitivní obsah mi byl zaslán k připomínkování v dostatečném předstihu. Všechny mé připomínky k práci byly zapracovány.
Publikační činnost, ocenění Se studentem jsme zpracovali výsledky do formy odborného článku, který byl odeslán na konferenci Interspeech 2024 (core A). Přes zamítnutí článku jsme získali poměrně dobré review, které nám ukázaly, jak téma vhodně dopracovat. Očekávám resubmission na jinou konferenci.
Navrhovaná známka
A
Body
90

Posudek oponenta

Firc, Anton

Celkově student odvedl značné množství práce při návrhu, implementaci a experimentálním ověření rekonstrukce hlasu původního mluvčího ze syntetické nahrávky. Výstupy práce jsou na vysoké úrovni a přinášejí nové a zajímavé poznatky pro vědeckou komunitu. Kvalita technické zprávy však zaostává za samotným řešením a pro čtenáře neznalé oboru může být náročné se v ní orientovat. Vyšší náročnost zadání a kvalita dosažených výsledků však vyvažují nedostatky technické zprávy. Práci proto navrhuji hodnotit stupněm A.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadání je primárně výzkumného charakteru, vyžadovalo pochopení pokročilých technik strojového učení a experimentální implementaci řešení pro rekonstrukci vstupů těchto modelů.
Rozsah splnění požadavků zadání Práce plně splňuje zadání bez jakýchkoliv výhrad. Jako rozšíření původního zadání lze považovat návrh a implementaci dvou metod pro získání informací o původním mluvčím, namísto jedné požadované.
Rozsah technické zprávy Práce obsahuje přibližně 80 normostran textu, což odpovídá obvyklému rozmezí.
Prezentační úroveň technické zprávy 75 Technická zpráva je občas nevhodně stručná, například formulace „Text-to-speech is self-explanatory“ na str. 7 není dostatečně vysvětlující. Používání zkratek jako „etc.“ a tří teček (např. na str. 10) není vhodné pro technické zprávy a odbornou literaturu, zejména při vysvětlování konceptů. V textu se objevují části, které zřejmě neměly být ve finální verzi (str. 10), a některé formulace působí neúplně nebo nesrozumitelně  (např. 3.8.4 - důvod uvádění „honorable mentions“).. Struktura textu je někdy nepřehledná, některé části by bylo vhodné seskupit do sekcí (např. technologie v kapitole 2). Nadměrné mezery mezi odstavci zhoršují čitelnost. Přechody mezi tématy jsou často příliš rychlé, například skok od obecných architektur k architekturám specifickým pro konverzi hlasu (Voice Conversion). Sekce 2.8 Related Work je velmi stručná a bylo by vhodné podrobněji rozebrat, co jednotlivé práce skutečně dělají, a ne jen uvést jejich výsledky. Text často vyžaduje značnou představivost k pochopení popisovaných konceptů, zejména u obrázků 4.1 a 4.2. Orientace v textu je náročná, zejména v kapitole 4, kde je třeba se k některým informacím vracet. Odkazy na obrázky z předchozích kapitol (např. 10 stran zpět) nejsou ideální. Popis implementace je někdy až příliš detailní a zbytečně podrobný. Grafy často postrádají popis os (např. obrázek 5.3) a některé datové prezentace by byly lépe srozumitelné v tabulkách, než dlouhými textovými pasážemi vysvětlujícími nastavení experimentu (např. kapitola 6.2).
Formální úprava technické zprávy 82 Typografická stránka práce vykazuje několik nedostatků. Při odkazech na kapitoly a sekce jsou používána malá písmena, což není správné. Citace jsou někdy nesprávně umístěné, například mimo větu uprostřed odstavce nebo na začátku řádku. Na straně 10 se nachází text, který zřejmě neměl být ve finální verzi. Jako pozitivní hodnotím použití angličtiny v celé práci.
Práce s literaturou 88 Výběr studijních pramenů je obecně kvalitní a vztahuje se k zadání a tématu práce. Úvod však postrádá dostatečné reference na uvedené informace. V některých odstavcích se opakovaně objevují stejné citace. Celkově bylo použito 60 citací, převážně z odborné literatury.
Realizační výstup 98 Realizační výstup je na vysoké úrovni a funkčnost technického řešení je působivá. Kód je dobře dokumentovaný a přehledně rozdělený, což usnadňuje pochopení, zda je kód napsán autorem nebo převzat. Pro každý použitý kód jsou uvedeny příslušné licence, což zajišťuje, že všechny použité zdrojové texty jsou v souladu s licenčními podmínkami a autorským právem. Dokumentace je kvalitní a detailní, umožňující snadné porozumění implementaci. Experimentální implementace dosahuje působivých výsledků při rekonstrukci původního mluvčího ze syntetizované nahrávky. Kvalita odvedené práce odpovídá standardům vědeckých publikací.
Využitelnost výsledků Práce přináší zcela nové poznatky v oblasti rekonstrukce hlasu původního mluvčího ze syntetických nahrávek. Výstupy jsou hodnotné pro výzkumnou komunitu.
Navrhovaná známka
A
Body
93

Otázky

eVSKP id 150236