Posudky závěrečné kvalifikační práce

Průběh řešení projektu byl plynulý a studentovi se podařilo implementovat nástroj zastřešující několik knihoven pro augmentaci dat. To má potenciál zefektivnit předzpracování dat v rámci výzkumné skupiny. Nástroj by měl být zveřejněn. Celkově se z pohledu vedoucího jedná o nadprůměrnou práci.

Dílčí hodnocení
Kritérium	Známka	Body	Slovní hodnocení
Informace k zadání			Jedná se o průměrně obtížné zadání s dostatkem prostoru pro možné rozšíření. Zadání bylo splněno. Bod 4 byl upozaděn na úkor lepší implementace nástroje. Téma volně navazuje na výzkumné projekty skupiny Speech@FIT . S dosaženými výsledky jsem spokojen. Student byl schopen vyvinout nástroj, který bychom mohli využít ve výzkumné skupině.
Práce s literaturou			Student literaturu získával samostatně a aktivně.
Aktivita během řešení, konzultace, komunikace			Student konzultoval pravidelně každých 14 dní. Byl vždy připraven a předvedl pokrok. S vedoucím detailně diskutoval další kroky.
Aktivita při dokončování			Aktivita při dokončování byla poklidná, text byl dodán ke kontrole cca 2 týdny před odevzdáním. Bylo navrženo několik úprav struktury a jazyka. Další kontrola textu ze strany vedoucího již neproběhla. Kód nástroje a experimenty byly dokončeny v čas.
Publikační činnost, ocenění			Práce byla publikována na Excel@FIT . Vyvinutý nástroj by měl být zveřejněn na GitHub k volnému použití.

Posudek oponenta

Polok, Alexander

Předložená práce je z programátorského hlediska velmi kvalitní. Technická zpráva, ačkoliv velmi čtivá, obsahuje drobné formální nedostatky. Zadání bylo ve všech bodech splněno. Knihovnu by bylo vhodné detailněji experimentálně prověřit.

Dílčí hodnocení
Kritérium	Body	Slovní hodnocení
Náročnost zadání		Zadání zahrnovalo nastudování teorie zpracování řečových signálů a jejich augmentace spolu s explorací vhodných knihoven. Samotná práce vyžadovala částečné porozumění knihovně PyTorch a základní pochopení metod strojového učení pro trénování systému pro automatické rozpoznávání řeči.
Rozsah splnění požadavků zadání		Zadání je podle mého názoru splněno. Byl vytvořen nástroj integrující různé knihovny pro aplikaci augmentace dat, který poskytuje jednotné rozhraní a byl zveřejněn v repozitáři PyPi. Jako drobný nedostatek vnímám bod 4, kde byl proveden pouze jeden experiment.
Rozsah technické zprávy		Technická zpráva přesahuje formální minimum. Kapitola 6 je však informačně chudší a obsahuje části popisující platformu HuggingFace, Gradio a Google Colab, které nejsou zcela relevantní k obsahu práce. Ostatní kapitoly jsou slušně napsané a obsažné.
Prezentační úroveň technické zprávy	90	Prezentační úroveň technické zprávy je velmi slušná. Kapitoly na sebe logicky navazují a práce se velmi dobře čte. Autor nejdříve představuje různé augmentace na vyšší úrovni abstrakce, doplněné o grafické ukázky v časové a frekvenční doméně. Pro názornost by však bylo vhodné do obrázků 2.2–2.7 zakomponovat i původní signál. Následně jsou představeny existující knihovny spolu s jejich výhodami a nedostatky. Diagramy, schémata a ukázky v kapitole 5 jsou velmi vydařené.
Formální úprava technické zprávy	75	Práce má slušnou formální úroveň a obsahuje minimum gramatických chyb. Některé obrázky, sekce a tabulky jsou v textu referovány pouze číselně (např. "...tak se v praxi využívají augmentace samotného zvukového signálu 2.1 a augmentace spektrogramu zvukového signálu 2.2."), nebo nejsou referovány vůbec, což znesnadňuje čitelnost. Vizuální stránka tabulek (zejména 4.1–4.3 a 6.1–6.3) by se dala zlepšit.
Práce s literaturou	80	Autor řádně cituje relevantní zdroje, až na [6] a [10], kde by bylo vhodné zvolit jiné, relevantnější varianty. Dokumentaci PyTorch [1] a Torchaudio [2] by bylo vhodné vynechat a uvést v poznámce pod čarou. Z práce je jasně patrné, co je přínos autora a co je převzato.
Realizační výstup	80	Hlavním výstupem práce je balíček AudioAugmentor, který byl zveřejněn v repozitáři PyPi. Zdrojové kódy jsou velmi kvalitní a řádně komentované. Balíček obsahuje velmi hezkou dokumentaci a ukázky, jak nástroj používat. Integrace do ekosystému PyTorch je implementována na úrovni Data Collatoru, což by se dalo do budoucna vylepšit.
Využitelnost výsledků		Autor vybudoval jednotné rozhraní nad několika knihovnami pro augmentaci dat v Pythonu. Balíček obecně vypadá použitelně a věřím, že po opravě několika drobností a detailnější verifikaci funkčnosti může být využit komunitou.

Posudky

Posudek vedoucího

Szőke, Igor

Posudek oponenta

Polok, Alexander

Otázky