PROCHÁZKA, J. Analýza kombinace informací ve více-kanálové verifikaci mluvčích [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Práci pana Procházky hodnotím velmi kladně. Po celou dobu řešení měl zjevný zájem o téma, což se projevilo i na velkém množství odvedené práce a diskuzích během konzultací. Nejen že musel student porozumět teoretickým východiskům více-mikrofonního signálového zpracování, práce vyžadovala i práci s neuronovými sítěmi (včetně trénování separačního modelu). To s sebou neslo i potřebu seznámení se a práce s Metacentrem. Zjištěné závěry jsou hodnotné pro výzkum v rámci BUT Speech@FIT. S ohledem na kvalitu a množství odvedené práce doporučuji komisi zvážení návrhu BP na některou z cen.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Zadání bakalářské práce je obtížnější. Pro jeho úspěšné řešení bylo totiž zapotřebí porozumět několika konceptům – netriviálnímu multikanálového zpracování (včetně “beamformingu”), verifikaci mluvčích s použitím deskriptivních vektorů („embeddingů“) spojenou s extrakcí těchto „embeddingů“ pomocí neuronových sítí, separaci zdrojů za použití neuronové sítě, „frameworku“ SpeechBrain. Bakalářská práce navazuje na aktivní výzkum v rámci skupiny BUT Speech@FIT a přináší užitečné poznatky, se kterými se dále bude pracovat. S výsledky a celkovou prací studenta, která reflektuje jeho entuziasmus, jsem velmi spokojen. | ||
Práce s literaturou | Student aktivně dohledával literární zdroje vztahující se k tvorbě lidské řeči, akustice a zvuku. Pilně pak studoval doporučené zdroje týkající se mikrofonních polí, prostorového filtrování („beamformingu“), použité datové sady, neuronových sítí pro extrakci „embeddingů“ mluvčích a separaci zdrojů. Nastudovanou teorii byl schopen uplatnit při implementaci metod pro fúzi více-mikrofonních informací a při trénování separační neuronové sítě. | ||
Aktivita během řešení, konzultace, komunikace | Během celé doby práce na tématu byl student aktivní. Konzultace probíhaly každý týden a na každou z nich byl pan Procházka řádně připraven, přinášel nové poznatky a náměty na diskuzi. | ||
Aktivita při dokončování | Práce byla dokončena v dostatečném předstihu před termínem odevzdání. Obsah práce mi byl předán k přečtení v takovém předstihu, že jsem mohl předat komentáře a zpětnou vazbu k celému dokumentu. | ||
Publikační činnost, ocenění | Práce byla přijata na studentskou konferenci Excel@FIT 2023 a prezentována formou plakátu. |
Student nad rámec splnil mírně obtížnější zadání. Výsledky mnoha experimentů jsou v souladu s nedávnými vědeckými publikacemi a dobře je doplňují. Výsledky experimentů mohou (a měly by být) dále publikovány aby dále posloužily vědecké komunitě. Celkově je práce dobře napsaná a čtivá i přes poměrně velké množství formálního popisu za pomoci matematických vztahů.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Zvládnutí zadání vyžaduje nastudování řady pokročilých technik ve zpracování řeči na úrovni surového více-kanálového signálu. Pro experimenty se systémem pro verifikaci řečníka bylo nutné nastudovat použití toolkitu Speechbrain a pochopit celou řadu kroků vedoucí od zpracování dat neuronovou sítí přes extrakci embedingu až po skórování a evaluaci. | ||
Rozsah splnění požadavků zadání | Zadání bylo splněno. Student provedl řadu experimentů se state-of-the-art modely pro beamforming a verifikaci řečníka. Počet různých implementovaných metod pro zpracování více-kanálových dat, či fúzi jednotlivých kanálu je více než dostatečný. Experimenty zaměřené na separaci řeči a šumu překračují požadavky zadání. | ||
Rozsah technické zprávy | Práce je v obvyklém rozsahu. | ||
Prezentační úroveň technické zprávy | 90 | Práce je psána čtivě, bez výrazných chyb s vyjímkou několika překlepů. Kapitoly na sebe navazují a neobsahují zbytečné redundantní informace. Oceňuji velmi dobrý jemný úvod do problematiky zpracování vice-kanálových dat. | |
Formální úprava technické zprávy | 85 | Práce je psána čeky, bez závažných gramatických chyb. Text je čtivý a pochopitelný. Práce je typograficky na dobré úrovni. | |
Práce s literaturou | 100 | K práci s literaturou nemám výhrady. Student uvádí na správných místech řadu relevantních a aktuálních referencí. | |
Realizační výstup | 80 | Výstupem práce je zejména analýza vyplývající z provedených experimentů, které naznačují, že pro verifikaci mluvčího na nahrávkách pořízených vzdálenými mikrofoními poli je úspěšnější metoda jednoduché fúze postavené nad jednotlivými kanály oproti složitějšímu vice-kanálovému zpracování. Student svoje experimenty dobře zdokumentoval. Čtenář se nicméně může v množství experimentů prezentovaných v jednotlivých tabulkách ztrácet. Kapitolu 5 by bylo vhodné doplnit o souhrnou tabulku a rozdíly mezi jednotlivými technikami detailně komentovat nad ní. Komentář nad souhrnými obrázky 5.3 a 5.4 je poněkud stručný. | |
Využitelnost výsledků | V práci byly provedenty experimenty se state-of-the-art technikami pro multi-kanálové zpracování audio dat a modely pro zpracování řečníka. Výsledky mohou doplnit nedávné vědecké publikace v této oblasti, mohou být publikovány současně s datovou sadou MultiSV vytvrořenou ve Speech@FIT a posloužit tak vědecké komunitě. |
eVSKP id 148427