OKRUCKÝ, A. Automatický přepis řeči pro česká nářečí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Posudky

Posudek vedoucího

Szőke, Igor

Celkově hodnotím práci studenta výborně. Pracoval pravidelně a samostatně.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Jedná se o průměrně obtížné zadání s dostatkem prostoru pro možné rozšíření. Zadání bylo splněno. Téma bylo vytvořené potřebám projektu NAKI JARIN v rámci výzkumné skupiny Speech@FIT . Student se musel vypořádat s heterogenními historickými daty a implementovat robustní zarovnávač, což se nakonec ukázalo jako stěžejní část práce. Vytvořený nástroj je funkční a zarovnaná data jsou již využívána v rámci projektu. S výsledky projektu jsem spokojen.
Práce s literaturou Student literaturu získával samostatně a aktivně. Některé zdroje si nechal doporučit od vedoucího.
Aktivita během řešení, konzultace, komunikace Student konzultoval pravidelně každé 2-3 týdny v zimním a každý týden v letním semestru. Byl vždy připraven a předvedl pokrok. S vedoucím detailně diskutoval další kroky.
Aktivita při dokončování Aktivita při dokončování byla intenzivnější. Text byl dodán ke kontrole včas. Celkově bylo dokončení bez zásadní časové tísně.
Publikační činnost, ocenění Není mi známa
Navrhovaná známka
A
Body
90

Posudek oponenta

Karafiát, Martin

Autor úspěšně adaptoval model Whisper a NeMo Force Aligner pro účely rozpoznávání českých dialektů a navrhl a implementoval celý pipeline pro přípravu datasetu. Přestože použité ASR modely nejsou primárně určeny pro češtinu, dosáhl autor velmi solidních výsledků a výrazného snížení Word Error Rate (z 75 % na 46 %). Oceňuji přínos práce pro zachování kulturního dědictví a její využitelnost v projektu NAKI. Na druhou stranu práce v některých částech působí ne zcela dotaženě – například popis architektury modelu Whisper, v některých místech by také bylo vhodné doplnit podrobnější vysvětlení klíčových částí, jako je „cross-attention“ vrstva nebo loss funkce. Hodnocení validace by také zasloužilo více pozornosti... Celkově však práci hodnotím jako zdařilou a doporučuji ji k obhajobě s výslednou známkou B (velmi dobře).

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání
Rozsah splnění požadavků zadání
Rozsah technické zprávy
Prezentační úroveň technické zprávy 85 Bakalářská práce je obecně dobře strukturovaná, jednotlivé kapitoly na sebe logicky navazují a dokumentují postup práce od teoretických východisek přes praktickou implementaci až k výsledkům a zhodnocení. Přesto bych doporučil autorovi pečlivěji formulovat některé části: str. 20: Věta: „Whisper sa stal prevratný v tom, že stojí na architektúre typu transformer [9]“ vyžaduje zpřesnění, protože architektura Transformer není sama o sobě revoluční – bylo by vhodné detailně vysvětlit, co činí Whisper inovativním oproti předchozím ASR systémům. str. 22: Popis dekodéru v kapitole 5.1 není úplný – chybí zmínka o vrstvě „cross-attention“ mezi enkodérem a dekodérem. str. 23: U verzí modelu Whisper by bylo vhodné doplnit informace o modelu „large-v3 turbo“, který je relevantní z hlediska praktického nasazení. str. 24: Formulace „Za účelom možnosti adaptácie rôznych modelov vznikla platforma Hugging Face“ by bylo vhodné přeformulovat, aby odrážela obecnější účel platformy. str. 33: Bylo by vhodné přidat ukázku výstupu zarovnání textu a audia. str. 40: V části týkající se adaptace modelu chybí informace o použité „loss funkci“ a jejím vlivu na trénink.
Formální úprava technické zprávy 85 Práce je psána převážně srozumitelně a věcně, ale občas obsahuje překlepy nebo stylistické nepřesnosti: str. 5: Popis obrázku 2.1: „datasety, na ktorých testovali modely“ – kdo konkrétně testoval modely? str. 10: Nadpis 3.4: „Dialektologický použitý v AZZNP“ – doporučuji přeformulovat (například: „Dialektologický zápis v AZZNP“). str. 21: „Viachlavý“ „Viac-hlavý“ (oddělit pro lepší čitelnost). str. 30: „segmentov, označených v prepise.“ „segmentov označených v prepise.“ str. 30: „Ak nájdu“ „Ak nájde“. str. 36: „nazhrávkami“ „nahrávkami“.
Práce s literaturou 90 Literatura i citace obrázků jsou důsledně uváděny. Pouze na straně 23 chybí citace u zmínky o pozičním embeddingu (transformer). Doporučuji tuto citaci doplnit, například na původní práci „Attention is All You Need“ od Vaswani et al. (2017).
Realizační výstup 95 Po stránce implementace je práce velmi dobře zpracována. Autor vytvořil pipeline pro přípravu datasetu, adaptaci modelu a segmentaci audia. Kód je dostupný na GitHubu. V oblasti validace mám dvě poznámky: str. 39: Bylo by vhodné detailněji popsat, jak bylo zajištěno oddělení trénovacích a testovacích dat s ohledem na mluvčí. str. 41: Při hodnocení výstupu modelu by bylo vhodné uvádět také výsledky „lowercase bez interpunkce“.
Využitelnost výsledků Výsledky této práce jsou plně využitelné v projektu NAKI (JaMap) a mají významný potenciál pro další rozvoj automatického přepisu českých dialektů a jejich archivace. Oceňuji praktické zaměření práce.
Navrhovaná známka
B
Body
88

Otázky

eVSKP id 163233