OKRUCKÝ, A. Automatický přepis řeči pro česká nářečí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Celkově hodnotím práci studenta výborně. Pracoval pravidelně a samostatně.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Informace k zadání | Jedná se o průměrně obtížné zadání s dostatkem prostoru pro možné rozšíření. Zadání bylo splněno. Téma bylo vytvořené potřebám projektu NAKI JARIN v rámci výzkumné skupiny Speech@FIT . Student se musel vypořádat s heterogenními historickými daty a implementovat robustní zarovnávač, což se nakonec ukázalo jako stěžejní část práce. Vytvořený nástroj je funkční a zarovnaná data jsou již využívána v rámci projektu. S výsledky projektu jsem spokojen. | ||
| Práce s literaturou | Student literaturu získával samostatně a aktivně. Některé zdroje si nechal doporučit od vedoucího. | ||
| Aktivita během řešení, konzultace, komunikace | Student konzultoval pravidelně každé 2-3 týdny v zimním a každý týden v letním semestru. Byl vždy připraven a předvedl pokrok. S vedoucím detailně diskutoval další kroky. | ||
| Aktivita při dokončování | Aktivita při dokončování byla intenzivnější. Text byl dodán ke kontrole včas. Celkově bylo dokončení bez zásadní časové tísně. | ||
| Publikační činnost, ocenění | Není mi známa |
Autor úspěšně adaptoval model Whisper a NeMo Force Aligner pro účely rozpoznávání českých dialektů a navrhl a implementoval celý pipeline pro přípravu datasetu. Přestože použité ASR modely nejsou primárně určeny pro češtinu, dosáhl autor velmi solidních výsledků a výrazného snížení Word Error Rate (z 75 % na 46 %). Oceňuji přínos práce pro zachování kulturního dědictví a její využitelnost v projektu NAKI. Na druhou stranu práce v některých částech působí ne zcela dotaženě – například popis architektury modelu Whisper, v některých místech by také bylo vhodné doplnit podrobnější vysvětlení klíčových částí, jako je „cross-attention“ vrstva nebo loss funkce. Hodnocení validace by také zasloužilo více pozornosti... Celkově však práci hodnotím jako zdařilou a doporučuji ji k obhajobě s výslednou známkou B (velmi dobře).
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Náročnost zadání | |||
| Rozsah splnění požadavků zadání | |||
| Rozsah technické zprávy | |||
| Prezentační úroveň technické zprávy | 85 | Bakalářská práce je obecně dobře strukturovaná, jednotlivé kapitoly na sebe logicky navazují a dokumentují postup práce od teoretických východisek přes praktickou implementaci až k výsledkům a zhodnocení. Přesto bych doporučil autorovi pečlivěji formulovat některé části: str. 20: Věta: „Whisper sa stal prevratný v tom, že stojí na architektúre typu transformer [9]“ vyžaduje zpřesnění, protože architektura Transformer není sama o sobě revoluční – bylo by vhodné detailně vysvětlit, co činí Whisper inovativním oproti předchozím ASR systémům. str. 22: Popis dekodéru v kapitole 5.1 není úplný – chybí zmínka o vrstvě „cross-attention“ mezi enkodérem a dekodérem. str. 23: U verzí modelu Whisper by bylo vhodné doplnit informace o modelu „large-v3 turbo“, který je relevantní z hlediska praktického nasazení. str. 24: Formulace „Za účelom možnosti adaptácie rôznych modelov vznikla platforma Hugging Face“ by bylo vhodné přeformulovat, aby odrážela obecnější účel platformy. str. 33: Bylo by vhodné přidat ukázku výstupu zarovnání textu a audia. str. 40: V části týkající se adaptace modelu chybí informace o použité „loss funkci“ a jejím vlivu na trénink. | |
| Formální úprava technické zprávy | 85 | Práce je psána převážně srozumitelně a věcně, ale občas obsahuje překlepy nebo stylistické nepřesnosti: str. 5: Popis obrázku 2.1: „datasety, na ktorých testovali modely“ – kdo konkrétně testoval modely? str. 10: Nadpis 3.4: „Dialektologický použitý v AZZNP“ – doporučuji přeformulovat (například: „Dialektologický zápis v AZZNP“). str. 21: „Viachlavý“ „Viac-hlavý“ (oddělit pro lepší čitelnost). str. 30: „segmentov, označených v prepise.“ „segmentov označených v prepise.“ str. 30: „Ak nájdu“ „Ak nájde“. str. 36: „nazhrávkami“ „nahrávkami“. | |
| Práce s literaturou | 90 | Literatura i citace obrázků jsou důsledně uváděny. Pouze na straně 23 chybí citace u zmínky o pozičním embeddingu (transformer). Doporučuji tuto citaci doplnit, například na původní práci „Attention is All You Need“ od Vaswani et al. (2017). | |
| Realizační výstup | 95 | Po stránce implementace je práce velmi dobře zpracována. Autor vytvořil pipeline pro přípravu datasetu, adaptaci modelu a segmentaci audia. Kód je dostupný na GitHubu. V oblasti validace mám dvě poznámky: str. 39: Bylo by vhodné detailněji popsat, jak bylo zajištěno oddělení trénovacích a testovacích dat s ohledem na mluvčí. str. 41: Při hodnocení výstupu modelu by bylo vhodné uvádět také výsledky „lowercase bez interpunkce“. | |
| Využitelnost výsledků | Výsledky této práce jsou plně využitelné v projektu NAKI (JaMap) a mají významný potenciál pro další rozvoj automatického přepisu českých dialektů a jejich archivace. Oceňuji praktické zaměření práce. |
eVSKP id 163233