BÍLEK, Š. Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Student pravděpodobně dosáhl základních výsledků, které přibližují vliv pohybu mluvčího na chybovost rozpoznávače řeči. Bohužel, celkové pracovní tempo bylo nevyrovnané. Na vědecky zajímavé experimenty již nezbyl čas. Vedoucí výsledný text ke kontrole nedostal.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Informace k zadání | Jedná se o průměrně obtížné zadání s dostatkem prostoru pro možné rozšíření. Téma volně navazuje na výzkumné projekty skupiny Speech@FIT . Závěr a dosažené výsledky nebyly s vedoucím konzultovány. Průběžné výsledky naznačují, že se studentovi podařilo dosáhnout funkčního řešení. S výsledkem jsem částečně nespokojen, mohlo být dosaženo více. | ||
| Práce s literaturou | Student literaturu získával samostatně a aktivně. | ||
| Aktivita během řešení, konzultace, komunikace | Student v zimním semestru konzultoval nepravidelně cca jednou za měsíc. Letní semestr začal v podobném stylu. Asi měsíc a půl před odevzdáním začal student konzultovat týdně. Na konzultace byl vždy připraven a předvedl pokrok. Nicméně ten byl vzhledem k dlouhé pauze občas menší než by bylo vhodné. | ||
| Aktivita při dokončování | Aktivita při dokončování byla intenzivní. Zdaleka se nepodařilo dospět k sadě experimentů, které toto téma nabízí. Text nebyl dodán ke kontrole. | ||
| Publikační činnost, ocenění | Není známa. |
Provedená práce je technicky i textově průměrná – zadání bylo splněno, experimenty provedeny, ale nezaznamenal jsem snahu o inovativní přístup či o produkci vysoce kvalitního reportu. Z inženýrského hlediska je škoda, že práce neobsahuje formální či experimentální kontrolu, zda je navržený postup validní, naopak kladně hodnotím uvedení dat i postupů v dostupných repozitářích.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Náročnost zadání | Zadání vyžadovalo netriviální studium akustiky a systémů pro rozpoznávání řeči. Bylo také nutné se zorientovat v řadě různých datasetů a toolkitů. | ||
| Rozsah splnění požadavků zadání | Zadání bylo splněno, student vytvořil nástroj pro práci s pohybujícími se řečníky, nasimuloval s ním řadu nahrávek a otestoval se základním a adaptovaným modelem rozpoznávání řeči Whisper v různých konfiguracích. Provedená práce je kvalitní, i když splňuje zadání dosti minimalisticky, práce neobsahuje experimenty, kdyby byl model natrénován na datech ze všech simulačních scénářů a otestován opět na všech scénářích – tato práce by skutečně vrhla světlo na generalizaci či negeneralizaci použitého přístupu. Práce se nevěnuje bodu 4 „zvažte možnost pořízení skutečných dat“ – i kdyzž podle zadání nemusel být tento bod proveden očekával bych alespoň základní komentář … | ||
| Rozsah technické zprávy | Práce je rozumného rozsahu, velmi pěkně jsou provedeny sekce o simulaci dat a o akustice, klíčová kapitola 6 o návrhu simulačního nástroje je rovněž pěkná a obsahuje potřebnou matematiku osvětlující, co se během simulace děje. U metody využívající překryvu oken ale není dokázáno (teoreticky ani experimentálně), že je validní (pro krátkou trajektorii mohla být provedena simulace pro všechny vzorky a všechny RIRs a výstup mohl být srovnán s použitou metodou overlap-and-add). Sekce o strojovém učení mohla být zkráce či zcela vynechána, pokud už v práci je, doporučoval bych skutečný úvod včetně přesné definice úloh ML. | ||
| Prezentační úroveň technické zprávy | 75 | Práce je celkově pěkně provedena, ale některé informace jsou uvedeny „na přeskáčku“ (např. sekci o návrhu simulačního nástroje bych očekával blíže úvodu do akustiky), a, jak bylo uvedeno výše, v některých případech postrádám validaci navržených postupů. Popis existujících nástrojů (kapitola 5) obsahuje pouze pyroomacoustics a SonicSim, přehled state of the art by si zasloužil více pozornosti, rychlý dotaz na scholar.google.com dává podstatně více referencí než dvě zmiňované knihovny. | |
| Formální úprava technické zprávy | 85 | Práce je psána pěknou češtinou, bez zjevných chyb. Typograficky a strukturně jsou v ní některé prohřešky, především v kombinaci matematiky a textu, Studentovi bude předán okomentovaný výtisk práce. | |
| Práce s literaturou | 78 | Rozsah seznamu literatury odpovídá bakalářské práci, nejsem si zcela jistý, zda proběhlo detailní seznámení s klíčovou teorií, vlastní práce je poměrně praktická. Citace zdrojů jsou kvalitní. Do dalších prací (DP) doporučuji jasně uvést, zda a případně jak bylo v práci použito AI nástrojů pro práci s textem. | |
| Realizační výstup | 85 | Výstupem je sada nástrojů pro tvorbu dat se simulovaným pohybem řečníka a pro adaptaci a testování modelu Whisper na taková data. | |
| Využitelnost výsledků | Práce je po dopracování potenciálně využitelná v dalším výzkumu řečové skupiny i jinde, především v projektech pro dolování informací z řeči v realistických scénářích. Oceňuji uvedení nástrojů i vytvořené datové sady na HuggingFace. |
eVSKP id 164722