HORNÍK, M. Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Posudky

Posudek vedoucího

Polok, Alexander

Celkově jsem s provedenou diplomovou prací velmi spokojen. Student odvedl kvalitní výzkumnou práci, jejíž jádrem byly pečlivě navržené a provedené experimenty. Zejména oceňuji, že se mu podařilo překonat ESPnet baseline o 2,5 % absolutní hodnoty WER na datasetu VoxPopuli.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Tato diplomová práce měla výzkumný charakter a jednalo se o středně náročné zadání. Student úspěšně natrénoval sadu systémů pro automatické rozpoznávání řeči, analyzoval přístupy ke zefektivnění trénování s využitím minimálních výpočetních prostředků a vylepšil referenční systém ESPnet o 2,5 % absolutní hodnoty WER (referenční systém měl téměř dvojnásobný počet parametrů), což přesně odpovídalo zadání. Práce nenavazovala přímo na žádný existující projekt a představovala převážně samostatné výzkumné úsilí. S výsledky jsem celkově velmi spokojen.
Práce s literaturou Student při řešení diplomové práce prokázal výraznou aktivitu v získávání a studiu relevantních materiálů. V práci cituje celkem 147 zdrojů (některé bohužel duplicitní). Šíře pokrytí je působivá, nicméně místy by bylo vhodnější zaměřit se hlouběji na vybrané klíčové práce.
Aktivita během řešení, konzultace, komunikace Student byl během řešení diplomové práce velmi aktivní. Docházel na pravidelné konzultace, na které byl vždy výborně připraven a přinášel nové výsledky k diskusi. V případě nejasností sám inicioval konzultace a o průběhu práce průběžně informoval také prostřednictvím komunikační platformy Discord.
Aktivita při dokončování První verze práce byla dokončena s bezmála měsíčním předstihem. Následně byly studentovi poskytnuty připomínky, které zapracoval, a téměř finální verze práce byla hotova přibližně dva týdny před oficiálním termínem odevzdání.
Publikační činnost, ocenění Není mi známo.
Navrhovaná známka
A
Body
90

Posudek oponenta

Kocour, Martin

Jedná se o kvalitní práci, ve které student navrhl a implementoval několik různých přístupů k adaptaci předtrénovaných modelů na cílovou doménu. Experimentální část technické zprávy by však zasloužila několik úprav, které by práci dále zlepšily.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadání práce lze hodnotit jako průměrně náročné. Hlavní obtíž spočívala v nutnosti nastudovat odbornou literaturu z oblasti zpracování přirozeného jazyka a porozumět principům trénování hlubokých neuronových sítí. Tyto oblasti kladou důraz na teoretické porozumění a schopnost samostatně se zorientovat v moderních nástrojích strojového učení, i přes omezené praktické zkušenosti, které student v této fázi studia může mít.
Rozsah splnění požadavků zadání Zadání bylo splněno v plném rozsahu a práce v některých ohledech původní rámec i mírně překročila.
Rozsah technické zprávy
Prezentační úroveň technické zprávy 83 Teoretická část práce je dobře strukturovaná a srozumitelná – text se čte plynule a navazuje logicky. Určitý problém však představuje rozvržení kapitol věnovaných experimentům. Student zvolil pojmenování kapitol podle chronologického pořadí jejich provedení („Experimental Setup 1, 2, …“), což ztěžuje orientaci a nenaznačuje jejich tematické zaměření. Vhodnější by bylo členění podle cílů experimentů, např. tvorba baselinu, efektivita extrakce příznaků, využití low-rank adaptací nebo dekódování na VoxPopuli. Další výhrada se týká jednotné a poněkud umělé struktury jednotlivých experimentů (popis, design, výsledky, závěr), která působí šablonovitě a potlačuje přirozené plynutí textu. Uvolněnější a kontextovější prezentace by práci prospěla. V experimentech zaměřených na extrakci příznaků student porovnává dopad přidávání dalších konvolučních vrstev. Tento experiment je především motivován tím, že modely BART a Wav2Vec mají odlišnou granularitu výstupů – zatímco výstup Wav2Vec reprezentuje přibližně 25 ms řeči, výstup BART modelu odpovídá zhruba čtyřem znakům (characterům). Proto bych ocenil, kdyby autor v tabulkách 5.7 a 5.8 doplnil sloupec s hodnotou výstupní frekvence (output rate) encoderu Wav2Vec. Toto by pomohlo lépe interpretovat výsledky a porovnat efektivitu jednotlivých vrstev vzhledem k časové granularitě vstupních reprezentací. Celkově však formální stránka práce splňuje požadavky a text je srozumitelný i pro čtenáře, který není detailně obeznámen s tématem.
Formální úprava technické zprávy 85 Práce je po formální stránce zpracována kvalitně. Je psána v LaTeXu, neobsahuje překlepy ani gramatické chyby. Jisté nedostatky se však vyskytují v oblasti citací: v odkaze [32] chybí název publikace od Marka Galesa a Steva Younga (The Application of Hidden Markov Models in Speech Recognition) , v odkazu [146] se vyskytují HTML tagy, které do názvu publikace nepatří. Tyto chyby by měly být při finální revizi odstraněny.
Práce s literaturou 95 Student cituje celkem 147 různých zdrojů, což je poměrně vysoké číslo pro diplomovou práci. Nicméně drtivá většina citací odkazuje na relevantní články z impaktovaných konferencí a prestižních publikací, což svědčí o pečlivém a rozsáhlém průzkumu dané problematiky.
Realizační výstup 95 Student vyvinul funkční technické řešení, které odpovídá cílům práce. Natrénované modely byly volně publikovány na platformě Hugging Face, kde jsou ihned dostupné k praktickému použití, například pro rozpoznávání parlamentních debat. Dokumentace k softwaru je dostatečná pro jeho využití i další rozvoj. 
Využitelnost výsledků Práce se zabývá velmi aktuální a relevantní problematikou, konkrétně efektivním dotrénováním velkých předtrénovaných modelů na požadovanou doménu. Autor v experimentech předvádí různé přístupy k adaptaci těchto modelů a dosahuje zajímavých výsledků, které mohou být prakticky využitelné v oblasti zpracování řeči či přirozeného jazyka. Touto cestou bych rád autora motivoval k publikaci výsledků na odborné konferenci, i když současná podoba textu vyžaduje ještě určitou redakční úpravu.
Navrhovaná známka
A
Body
90

Otázky

eVSKP id 164401