TOMAŠOVIČ, M. Velké předtrénované jazykové modely v rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Student se vyrovnal se zadáním na hranici současného poznání, seznámil se při tom s velkým objemem nedávných pokroků ve strojovém učení a zprovoznil úctyhodné množství různých modelů řeči i jazyka. K lepšímu hodnocení chybí tah řešitele na analýzu dosažených výsledků, která by v ideálním případě měla být klenotem práce tohoto typu.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Zadání je výzkumného charakteru, vyžaduje seznámení se se strojovým učením daleko za hranicemi bakalářského programu na FITu a práci s poznatky mladšími než jeden rok. Zadání považuji za splněné, i když úsilí šlo spíše do šířky než hloubky, čímž utrpěl čtvrtý bod zadání. | ||
Práce s literaturou | Student byl při získávání studijních materiálů samostatný a aktivní. S postupem práce se v problematice začal orientovat více a rostla i kvalita zdrojů, o které se opíral. Podle mého soudu nedosáhl úplného porozumění ve všech studovaných záležitostech, ale rozsah prozkoumaných technik je působivý. | ||
Aktivita během řešení, konzultace, komunikace | Student chodil na dohodnuté konzultace přesně a připraven. | ||
Aktivita při dokončování | Práce začala být dokončována v předstihu. Vzhledem ke značným obtížím s formulací nastudované látky a prezentací dosažených výsledků ale text bohužel prodělával velké změny až do posledních dní, takže jeho definitivní podoba již nebyla vedoucím poznámkována. | ||
Publikační činnost, ocenění | Práce byla úspěšně prezentována na konferenci Excel@FIT 2024. Experimentální zjištení jsou spíše v souladu s očekáváními, což hodnotu bakalářské práce ani v nejmenším nesnižuje, ale případné publikaci na vědecké konferenci bude pravděpodobně na překážku. |
Jedná se o velmi náročné téma pro bakalářskou úroveň, které autor zpracoval dostatečně a splnil všechny body zadání. Bohužel, snaha o detailní popis teorie a komplexnost problému ovlivnily kvalitu technické zprávy, která obsahuje technické nepřesnosti a formální nedostatky, což ztěžuje její četbu. Přestože práce obsahuje mnoho tabulek s výsledky, ty nejsou vůbec komentovány a analyzovány, což snižuje jejich informační hodnotu a přínos. Autor by mohl vylepšit práci tím, že lépe zdůrazní přínos své práce a provede důkladnější analýzu výsledků.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Jedná se o velmi aktuální výzkumné téma, které je poměrně náročné na bakalářské úrovni. Jeho vypracování vyžadovalo minimálně nastudování teoretických základů jazykového modelování a rozpoznávání řeči spolu s metodami fúze těchto systémů. | ||
Rozsah splnění požadavků zadání | Zadání je podle mého názoru ve všech bodech splněno. Autor se rozhodl provést fúzi nejjednodušším způsobem, a to reskórováním N nejlepších hypotéz jazykovým modelem. Bylo by přínosné, kdyby byly prozkoumány i další přístupy. | ||
Rozsah technické zprávy | Zahrnujíc přílohy, se jedná o velmi dlouhou bakalářskou práci. Většina práce (3/4) obsahuje popis teorie. Podle mého názoru by však bylo možné vynechat sekce 2.5–2.6, 3.7–3.11, 3.13 a 4.1, které popisují koncepty, jež nejsou stěžejní pro tuto práci. Pouze čtvrtina textu je zaměřená na vlastní práci a provedené experimenty, což považuji u experimentální práce za nedostatečné. Experimenty postrádají analýzu dosažených výsledků a většina výsledků je uvedena v přílohách. | ||
Prezentační úroveň technické zprávy | 60 | Kapitola 2 práce zcela postrádá strukturu a zasloužila by si revizi. Sekce 2.1–2.4 jsou představeny v neintuitivním pořadí a například popis šumu do sekce 2.1 zcela nepatří. Sekce 2.5 a 2.6 by neměly být součástí kapitoly o automatickém rozpoznávání řeči. Kapitola 2 také obsahuje autorovy poznatky, hypotézy a měření, které by měly být uvedeny jinde. Kapitola 3 již částečně dodržuje logickou návaznost, avšak bylo by vhodnější, kdyby sekce 3.7–3.13 byly zahrnuty pod kapitolu 4. Obrázky a tabulky by měly být lépe propojeny s textem. Kapitola 5 se velmi špatně čte a je napsaná ve stylu "zde jsou výsledky bez komentáře." V práci se se vyskytují nedokončené věty, jako např. "The scores are together." (3.14). | |
Formální úprava technické zprávy | 80 | Po formální stránce je práce napsána velmi dobře, obsahuje minimum gramatických chyb a je napsána jednoduchou a srozumitelnou angličtinou. Některé obrázky a tabulky (zejména v kapitole 5) však nejsou v textu vůbec zmíněny. Typografická úprava rovnic a symbolů není jednotná napříč prací. | |
Práce s literaturou | 50 | Autor cituje velmi relevantní a komplexní literaturu. Některé zdroje (např. 54) však nejsou citovány správně. Technická zpráva (zejména kapitola 3) vykazuje vysokou podobnost s jinými závěrečnými pracemi (19 % v systému Theses), přičemž se nejedná o doslovné převzetí, ale spíše o semantickou podobnost na úrovni sekcí. Co je však velmi rušivé, jsou faktické nepřesnosti, které se v práci vyskytují poměrně často. Například popis Levenshteinovy vzdálenosti (2.2), MFCC (2.3), CTC (druhý a třetí odstavec 2.4), pozičního kódování (3.8) a zejména popis Attention mechanismů (aditivní skórování, maskování, multi-query – 3.9). Autor také bez jakékoliv citace prohlašuje, že jazykové modely vznikly z důvodu rozpoznávání řeči. | |
Realizační výstup | 75 | V rámci této práce autor vybudoval sadu skriptů pro dotrénování jazykových modelů, inferenci rozpoznávačů řeči a reskórování jejich hypotéz. Zdrojové kódy jsou v pořádku a solidně komentované. Dokumentace by však mohla být rozsáhlejší a lépe strukturovaná. | |
Využitelnost výsledků | Ačkoliv práce obsahuje 20 stran příloh s tabulkami, nejsem si jistý, jak přínosné jsou všechna tato čísla. Autor sice ukazuje, že menší jazykový model, dotrénovaný na cílových datech, dosahuje podobné schopnosti reskorování jako velké jazykové modely, avšak tato vlastnost je přinejmenším očekávaná. Je také ukázáno, že low-rank adaptace velkého jazykového modelu taktéž zlepšuje výsledky, avšak opět se nejedná o žádné nečekané zjištění. Bylo dosaženo zlepšení napříč několika datasety a zadání bylo splněno. Co mi však v práci chybí, je detailnější analýza těchto výsledků a alespoň částečná komparace s jinými přístupy, jako je shallow fúze nebo autoregresivní generování odpovědí LLM podmíněné seznamem nejlepších hypotéz. |
eVSKP id 153477