KOVÁČIKOVÁ, J. Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Posudky

Posudek vedoucího

Szőke, Igor

Studentka pracovala pravidelně a v letním semestru velmi intenzivne. Studentce se podařilo implementovat, natrénovat a vyhodnotit experimenty s vlivem pohybu mluvčího na chybovost rozpoznávače řeči.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Jedná se o průměrně obtížné zadání s dostatkem prostoru pro možné rozšíření. Téma volně navazuje na výzkumné projekty skupiny Speech@FIT . S výsledkem jsem celkem spokojen i když mohlo být dosaženo více experimentů.
Práce s literaturou Studentka literaturu získávala samostatně a aktivně.
Aktivita během řešení, konzultace, komunikace Studentka v zimním semestru konzultovala pravidelně cca jednou za 14 dní. Letní semestr konzultovala týdně, ale ze zdravotních důvodů získala asi měsíční skluz, který se nepodařilo dohnat. Na konzultace byla vždy připravena a předvedla pokrok. Místy bylo třeba vyvinout velké úsilí k překonání překážek v implementaci a trénování modelů.
Aktivita při dokončování Aktivita při dokončování byla intenzivní a pod stresem, aby zvládla dokončit rozumné množství experimentů. Nekompletní text byl dodán ke kontrole včas. Vedoucí doporučil změnu struktury a jazykovou korekturu.
Publikační činnost, ocenění Není známa.
Navrhovaná známka
B
Body
80

Posudek oponenta

Černocký, Jan

Oceňuji množství a kvalitu provedené práce, jak v SW simulaci pohybujících se mluvčích, tak při tvorbě reálného re-nahraného datasetu. Oceňuji také velmi kritické zhodnocení jednotlivých částí práce a pěkný plakát. Pro hodnocení A chybí lepší vhled do teorie simulace (zmíněná absence kontroly, zda je navržený postup validní, žádná zmínka o Dopplerově efektu atd) a pečlivější formální popis klíčových částí práce

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadání vyžadovalo netriviální studium akustiky a systémů pro rozpoznávání řeči. Bylo také nutné se zorientovat v řadě různých datasetů a toolkitů.
Rozsah splnění požadavků zadání Zadání bylo splněno, studentka rozšířila nástroj pyroomacoustic pro práci s pohybujícími se řečníky, nasimulovala s tímto nástrojem řadu nahrávek a nahrála unikátní dataset pomocí lanovky v různých konfiguracích místnosti. K práci lze mít samozřejmě řadu připomínek (např. chybí zjišťování koherence mezi impulsními odezvami v jednotlivých nodech trajektorie, v experimentech chybí vyhodnocení pro reverberující místnost, ale nepohybujícího se mluvčího, atd), ale celkově se jedná o značný objem dobře inženýrsky provedené práce.
Rozsah technické zprávy Práce je kompaktní a pokrývá skutečně důležité části práce, neobsahuje zbytečnou „vatu“. Některé sekce by bylo přece jen dobré rozšířit či udělat jinak – např. u nástroje SonicSim je analýza založená na existující studii (nástroj se nepodařilo rozjet) a u vlastní práce mi chybí pečlivý matematický popis toho, co se děje se zdrojovým signálem během pohybu mluvčího – sekce obsahuje pouze jednu (!) rovnici 4.1 a z textu není jasné, co se čím filtruje, jak probíhá oknování, atd. U metody využívající překryvu oken navíc není dokázáno, že je teoreticky správně (pro krátkou trajektorii mohla být provedena simulace pro všechny vzorky a všechny RIRs a výstup mohl být srovnán s použitou metodou overlap-and-add).
Prezentační úroveň technické zprávy 85 Práce je prezentačně pěkně provedena, až na výhradu nahoře – některé klíčové sekce jsou psány formou textu, u kvalifikační práce FIT bych očekával formálnější „inženýrský“ popis.
Formální úprava technické zprávy 85 Práce je psána (pokud mohu soudit) pěknou slovenštinou, bez zjevných chyb. Typograficky a strukturně jsou v ní některé prohřešky, především v kombinaci matematiky a textu, Studentce bude předán okomentovaný výtisk práce.
Práce s literaturou 85 Rozsah seznamu literatury odpovídá bakalářské práci, nejsem si zcela jistý, zda proběhlo detailní seznámení s klíčovou teorií, vlastní práce je (byť kvalitní) poměrně praktická. Citace zdrojů je velmi kvalitní, studentka velmi přesně sděluje, která část práce je podložena kterou literaturou. Do dalších prací (DP) doporučuji jasně uvést, zda a případně jak bylo v práci použito AI nástrojů pro práci s textem.
Realizační výstup 95 Výstupem je sada nástrojů pro tvorbu dat se simulovaným pohybem řečníka a pro adaptaci a testování modelu Whisper na taková data. Unikátním realizačním výstupem je lanovka pro re-nahrávání dat se simulovaným pohybem včetně nahrávání několika mluvčích sadou pohybujících se zdrojů. Tato část práce, podobně jako volba místností a technické volby pro simulaci (rozměry místnosí, umístění mikrofonů, atd) svědčí o technické intuici studentky, kterou vysoce oceňuji.
Využitelnost výsledků Práce je po dopracování potenciálně využitelná v dalším výzkumu řečové skupiny i jinde, především v projektech pro dolování informací z řeči v realistických scénářích. Rozšíření knihovny pyroomacoustics je k disposici jako open source, v práci by mělo být uvedeno, zda a jak jsou šířeny i další komponenty práce.
Navrhovaná známka
B
Body
85

Otázky

eVSKP id 158850