PROCHÁZKA, J. Analýza kombinace informací ve více-kanálové verifikaci mluvčích [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Mošner, Ladislav

Práci pana Procházky hodnotím velmi kladně. Po celou dobu řešení měl zjevný zájem o téma, což se projevilo i na velkém množství odvedené práce a diskuzích během konzultací. Nejen že musel student porozumět teoretickým východiskům více-mikrofonního signálového zpracování, práce vyžadovala i práci s neuronovými sítěmi (včetně trénování separačního modelu). To s sebou neslo i potřebu seznámení se a práce s Metacentrem. Zjištěné závěry jsou hodnotné pro výzkum v rámci BUT Speech@FIT. S ohledem na kvalitu a množství odvedené práce doporučuji komisi zvážení návrhu BP na některou z cen.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Zadání bakalářské práce je obtížnější. Pro jeho úspěšné řešení bylo totiž zapotřebí porozumět několika konceptům – netriviálnímu multikanálového zpracování (včetně “beamformingu”), verifikaci mluvčích s použitím deskriptivních vektorů („embeddingů“) spojenou s extrakcí těchto „embeddingů“ pomocí neuronových sítí, separaci zdrojů za použití neuronové sítě, „frameworku“ SpeechBrain. Bakalářská práce navazuje na aktivní výzkum v rámci skupiny BUT Speech@FIT a přináší užitečné poznatky, se kterými se dále bude pracovat. S výsledky a celkovou prací studenta, která reflektuje jeho entuziasmus, jsem velmi spokojen. 
Práce s literaturou Student aktivně dohledával literární zdroje vztahující se k tvorbě lidské řeči, akustice a zvuku. Pilně pak studoval doporučené zdroje týkající se mikrofonních polí, prostorového filtrování („beamformingu“), použité datové sady, neuronových sítí pro extrakci „embeddingů“ mluvčích a separaci zdrojů. Nastudovanou teorii byl schopen uplatnit při implementaci metod pro fúzi více-mikrofonních informací a při trénování separační neuronové sítě.
Aktivita během řešení, konzultace, komunikace Během celé doby práce na tématu byl student aktivní. Konzultace probíhaly každý týden a na každou z nich byl pan Procházka řádně připraven, přinášel nové poznatky a náměty na diskuzi.
Aktivita při dokončování Práce byla dokončena v dostatečném předstihu před termínem odevzdání. Obsah práce mi byl předán k přečtení v takovém předstihu, že jsem mohl předat komentáře a zpětnou vazbu k celému dokumentu.
Publikační činnost, ocenění Práce byla přijata na studentskou konferenci Excel@FIT 2023 a prezentována formou plakátu.
Navrhovaná známka
A
Body
95

Posudek oponenta

Plchot, Oldřich

Student nad rámec splnil  mírně obtížnější zadání. Výsledky mnoha experimentů jsou v souladu s nedávnými vědeckými publikacemi a dobře je doplňují. Výsledky experimentů mohou (a měly by být) dále publikovány aby dále posloužily vědecké komunitě. Celkově je práce dobře napsaná a čtivá i přes poměrně velké množství formálního popisu za pomoci matematických vztahů.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zvládnutí zadání vyžaduje nastudování řady pokročilých technik ve zpracování řeči  na úrovni surového více-kanálového signálu. Pro experimenty se systémem pro verifikaci řečníka bylo nutné nastudovat použití toolkitu Speechbrain a pochopit celou řadu kroků vedoucí od zpracování dat neuronovou sítí přes extrakci embedingu až po skórování a evaluaci.
Rozsah splnění požadavků zadání Zadání bylo splněno. Student provedl řadu experimentů se state-of-the-art modely pro beamforming a verifikaci řečníka. Počet různých implementovaných metod pro zpracování více-kanálových dat, či fúzi jednotlivých kanálu je více než dostatečný. Experimenty zaměřené na separaci řeči a šumu překračují požadavky zadání.
Rozsah technické zprávy Práce je v obvyklém rozsahu.
Prezentační úroveň technické zprávy 90 Práce je psána čtivě, bez výrazných chyb s vyjímkou několika překlepů. Kapitoly na sebe navazují a neobsahují zbytečné redundantní informace. Oceňuji velmi dobrý jemný úvod do problematiky zpracování vice-kanálových dat.
Formální úprava technické zprávy 85 Práce je psána čeky, bez závažných gramatických chyb. Text je čtivý a pochopitelný. Práce je typograficky na dobré úrovni. 
Práce s literaturou 100 K práci s literaturou nemám výhrady. Student uvádí na správných místech řadu relevantních a aktuálních referencí.
Realizační výstup 80 Výstupem práce je zejména analýza vyplývající z provedených experimentů, které naznačují, že pro verifikaci mluvčího na nahrávkách pořízených vzdálenými mikrofoními poli je úspěšnější metoda jednoduché fúze postavené nad jednotlivými kanály oproti složitějšímu vice-kanálovému zpracování. Student svoje experimenty dobře zdokumentoval. Čtenář se nicméně může v množství experimentů prezentovaných v jednotlivých tabulkách ztrácet. Kapitolu 5 by bylo vhodné doplnit o souhrnou tabulku a rozdíly mezi jednotlivými technikami detailně komentovat nad ní. Komentář nad  souhrnými obrázky 5.3 a 5.4 je poněkud stručný.
Využitelnost výsledků V práci byly provedenty experimenty se state-of-the-art technikami pro multi-kanálové zpracování audio dat a modely pro zpracování řečníka. Výsledky mohou doplnit nedávné vědecké publikace v této oblasti, mohou být publikovány současně s datovou sadou MultiSV vytvrořenou ve Speech@FIT a posloužit tak vědecké komunitě.
Navrhovaná známka
A
Body
90

eVSKP id 148427