VAŠINA, L. Integrace augmentace dat do Pytorch [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Szőke, Igor

Průběh řešení projektu byl plynulý a studentovi se podařilo implementovat nástroj zastřešující několik knihoven pro augmentaci dat. To má potenciál zefektivnit předzpracování dat v rámci výzkumné skupiny. Nástroj by měl být zveřejněn. Celkově se z pohledu vedoucího jedná o nadprůměrnou práci.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Jedná se o průměrně obtížné zadání s dostatkem prostoru pro možné rozšíření. Zadání bylo splněno. Bod 4 byl upozaděn na úkor lepší implementace nástroje. Téma volně navazuje na výzkumné projekty skupiny Speech@FIT . S dosaženými výsledky jsem spokojen. Student byl schopen vyvinout nástroj, který bychom mohli využít ve výzkumné skupině.
Práce s literaturou Student literaturu získával samostatně a aktivně.
Aktivita během řešení, konzultace, komunikace Student konzultoval pravidelně každých 14 dní. Byl vždy připraven a předvedl pokrok. S vedoucím detailně diskutoval další kroky.
Aktivita při dokončování Aktivita při dokončování byla poklidná, text byl dodán ke kontrole cca 2 týdny před odevzdáním. Bylo navrženo několik úprav struktury a jazyka. Další kontrola textu ze strany vedoucího již neproběhla. Kód nástroje a experimenty byly dokončeny v čas.
Publikační činnost, ocenění Práce byla publikována na Excel@FIT . Vyvinutý nástroj by měl být zveřejněn na GitHub k volnému použití.
Navrhovaná známka
B
Body
85

Posudek oponenta

Polok, Alexander

Předložená práce je z programátorského hlediska velmi kvalitní. Technická zpráva, ačkoliv velmi čtivá, obsahuje drobné formální nedostatky. Zadání bylo ve všech bodech splněno. Knihovnu by bylo vhodné detailněji experimentálně prověřit.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadání zahrnovalo nastudování teorie zpracování řečových signálů a jejich augmentace spolu s explorací vhodných knihoven. Samotná práce vyžadovala částečné porozumění knihovně PyTorch a základní pochopení metod strojového učení pro trénování systému pro automatické rozpoznávání řeči.
Rozsah splnění požadavků zadání Zadání je podle mého názoru splněno. Byl vytvořen nástroj integrující různé knihovny pro aplikaci augmentace dat, který poskytuje jednotné rozhraní a byl zveřejněn v repozitáři PyPi. Jako drobný nedostatek vnímám bod 4, kde byl proveden pouze jeden experiment.
Rozsah technické zprávy Technická zpráva přesahuje formální minimum. Kapitola 6 je však informačně chudší a obsahuje části popisující platformu HuggingFace, Gradio a Google Colab, které nejsou zcela relevantní k obsahu práce. Ostatní kapitoly jsou slušně napsané a obsažné.
Prezentační úroveň technické zprávy 90 Prezentační úroveň technické zprávy je velmi slušná. Kapitoly na sebe logicky navazují a práce se velmi dobře čte. Autor nejdříve představuje různé augmentace na vyšší úrovni abstrakce, doplněné o grafické ukázky v časové a frekvenční doméně. Pro názornost by však bylo vhodné do obrázků 2.2–2.7 zakomponovat i původní signál. Následně jsou představeny existující knihovny spolu s jejich výhodami a nedostatky. Diagramy, schémata a ukázky v kapitole 5 jsou velmi vydařené.
Formální úprava technické zprávy 75 Práce má slušnou formální úroveň a obsahuje minimum gramatických chyb. Některé obrázky, sekce a tabulky jsou v textu referovány pouze číselně (např. "...tak se v praxi využívají augmentace samotného zvukového signálu 2.1 a augmentace spektrogramu zvukového signálu 2.2."), nebo nejsou referovány vůbec, což znesnadňuje čitelnost. Vizuální stránka tabulek (zejména 4.1–4.3 a 6.1–6.3) by se dala zlepšit.
Práce s literaturou 80 Autor řádně cituje relevantní zdroje, až na [6] a [10], kde by bylo vhodné zvolit jiné, relevantnější varianty. Dokumentaci PyTorch [1] a Torchaudio [2] by bylo vhodné vynechat a uvést v poznámce pod čarou. Z práce je jasně patrné, co je přínos autora a co je převzato.
Realizační výstup 80 Hlavním výstupem práce je balíček AudioAugmentor, který byl zveřejněn v repozitáři PyPi. Zdrojové kódy jsou velmi kvalitní a řádně komentované. Balíček obsahuje velmi hezkou dokumentaci a ukázky, jak nástroj používat. Integrace do ekosystému PyTorch je implementována na úrovni Data Collatoru, což by se dalo do budoucna vylepšit.
Využitelnost výsledků Autor vybudoval jednotné rozhraní nad několika knihovnami pro augmentaci dat v Pythonu. Balíček obecně vypadá použitelně a věřím, že po opravě několika drobností a detailnější verifikaci funkčnosti může být využit komunitou.
Navrhovaná známka
B
Body
80

Otázky

eVSKP id 150975