HORNÍK, M. Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Celkově jsem s provedenou diplomovou prací velmi spokojen. Student odvedl kvalitní výzkumnou práci, jejíž jádrem byly pečlivě navržené a provedené experimenty. Zejména oceňuji, že se mu podařilo překonat ESPnet baseline o 2,5 % absolutní hodnoty WER na datasetu VoxPopuli.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Informace k zadání | Tato diplomová práce měla výzkumný charakter a jednalo se o středně náročné zadání. Student úspěšně natrénoval sadu systémů pro automatické rozpoznávání řeči, analyzoval přístupy ke zefektivnění trénování s využitím minimálních výpočetních prostředků a vylepšil referenční systém ESPnet o 2,5 % absolutní hodnoty WER (referenční systém měl téměř dvojnásobný počet parametrů), což přesně odpovídalo zadání. Práce nenavazovala přímo na žádný existující projekt a představovala převážně samostatné výzkumné úsilí. S výsledky jsem celkově velmi spokojen. | ||
| Práce s literaturou | Student při řešení diplomové práce prokázal výraznou aktivitu v získávání a studiu relevantních materiálů. V práci cituje celkem 147 zdrojů (některé bohužel duplicitní). Šíře pokrytí je působivá, nicméně místy by bylo vhodnější zaměřit se hlouběji na vybrané klíčové práce. | ||
| Aktivita během řešení, konzultace, komunikace | Student byl během řešení diplomové práce velmi aktivní. Docházel na pravidelné konzultace, na které byl vždy výborně připraven a přinášel nové výsledky k diskusi. V případě nejasností sám inicioval konzultace a o průběhu práce průběžně informoval také prostřednictvím komunikační platformy Discord. | ||
| Aktivita při dokončování | První verze práce byla dokončena s bezmála měsíčním předstihem. Následně byly studentovi poskytnuty připomínky, které zapracoval, a téměř finální verze práce byla hotova přibližně dva týdny před oficiálním termínem odevzdání. | ||
| Publikační činnost, ocenění | Není mi známo. |
Jedná se o kvalitní práci, ve které student navrhl a implementoval několik různých přístupů k adaptaci předtrénovaných modelů na cílovou doménu. Experimentální část technické zprávy by však zasloužila několik úprav, které by práci dále zlepšily.
| Kritérium | Známka | Body | Slovní hodnocení |
|---|---|---|---|
| Náročnost zadání | Zadání práce lze hodnotit jako průměrně náročné. Hlavní obtíž spočívala v nutnosti nastudovat odbornou literaturu z oblasti zpracování přirozeného jazyka a porozumět principům trénování hlubokých neuronových sítí. Tyto oblasti kladou důraz na teoretické porozumění a schopnost samostatně se zorientovat v moderních nástrojích strojového učení, i přes omezené praktické zkušenosti, které student v této fázi studia může mít. | ||
| Rozsah splnění požadavků zadání | Zadání bylo splněno v plném rozsahu a práce v některých ohledech původní rámec i mírně překročila. | ||
| Rozsah technické zprávy | |||
| Prezentační úroveň technické zprávy | 83 | Teoretická část práce je dobře strukturovaná a srozumitelná – text se čte plynule a navazuje logicky. Určitý problém však představuje rozvržení kapitol věnovaných experimentům. Student zvolil pojmenování kapitol podle chronologického pořadí jejich provedení („Experimental Setup 1, 2, …“), což ztěžuje orientaci a nenaznačuje jejich tematické zaměření. Vhodnější by bylo členění podle cílů experimentů, např. tvorba baselinu, efektivita extrakce příznaků, využití low-rank adaptací nebo dekódování na VoxPopuli. Další výhrada se týká jednotné a poněkud umělé struktury jednotlivých experimentů (popis, design, výsledky, závěr), která působí šablonovitě a potlačuje přirozené plynutí textu. Uvolněnější a kontextovější prezentace by práci prospěla. V experimentech zaměřených na extrakci příznaků student porovnává dopad přidávání dalších konvolučních vrstev. Tento experiment je především motivován tím, že modely BART a Wav2Vec mají odlišnou granularitu výstupů – zatímco výstup Wav2Vec reprezentuje přibližně 25 ms řeči, výstup BART modelu odpovídá zhruba čtyřem znakům (characterům). Proto bych ocenil, kdyby autor v tabulkách 5.7 a 5.8 doplnil sloupec s hodnotou výstupní frekvence (output rate) encoderu Wav2Vec. Toto by pomohlo lépe interpretovat výsledky a porovnat efektivitu jednotlivých vrstev vzhledem k časové granularitě vstupních reprezentací. Celkově však formální stránka práce splňuje požadavky a text je srozumitelný i pro čtenáře, který není detailně obeznámen s tématem. | |
| Formální úprava technické zprávy | 85 | Práce je po formální stránce zpracována kvalitně. Je psána v LaTeXu, neobsahuje překlepy ani gramatické chyby. Jisté nedostatky se však vyskytují v oblasti citací: v odkaze [32] chybí název publikace od Marka Galesa a Steva Younga (The Application of Hidden Markov Models in Speech Recognition) , v odkazu [146] se vyskytují HTML tagy, které do názvu publikace nepatří. Tyto chyby by měly být při finální revizi odstraněny. | |
| Práce s literaturou | 95 | Student cituje celkem 147 různých zdrojů, což je poměrně vysoké číslo pro diplomovou práci. Nicméně drtivá většina citací odkazuje na relevantní články z impaktovaných konferencí a prestižních publikací, což svědčí o pečlivém a rozsáhlém průzkumu dané problematiky. | |
| Realizační výstup | 95 | Student vyvinul funkční technické řešení, které odpovídá cílům práce. Natrénované modely byly volně publikovány na platformě Hugging Face, kde jsou ihned dostupné k praktickému použití, například pro rozpoznávání parlamentních debat. Dokumentace k softwaru je dostatečná pro jeho využití i další rozvoj. | |
| Využitelnost výsledků | Práce se zabývá velmi aktuální a relevantní problematikou, konkrétně efektivním dotrénováním velkých předtrénovaných modelů na požadovanou doménu. Autor v experimentech předvádí různé přístupy k adaptaci těchto modelů a dosahuje zajímavých výsledků, které mohou být prakticky využitelné v oblasti zpracování řeči či přirozeného jazyka. Touto cestou bych rád autora motivoval k publikaci výsledků na odborné konferenci, i když současná podoba textu vyžaduje ještě určitou redakční úpravu. |
eVSKP id 164401