VAŠINA, L. Integrace augmentace dat do Pytorch [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Průběh řešení projektu byl plynulý a studentovi se podařilo implementovat nástroj zastřešující několik knihoven pro augmentaci dat. To má potenciál zefektivnit předzpracování dat v rámci výzkumné skupiny. Nástroj by měl být zveřejněn. Celkově se z pohledu vedoucího jedná o nadprůměrnou práci.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Jedná se o průměrně obtížné zadání s dostatkem prostoru pro možné rozšíření. Zadání bylo splněno. Bod 4 byl upozaděn na úkor lepší implementace nástroje. Téma volně navazuje na výzkumné projekty skupiny Speech@FIT . S dosaženými výsledky jsem spokojen. Student byl schopen vyvinout nástroj, který bychom mohli využít ve výzkumné skupině. | ||
Práce s literaturou | Student literaturu získával samostatně a aktivně. | ||
Aktivita během řešení, konzultace, komunikace | Student konzultoval pravidelně každých 14 dní. Byl vždy připraven a předvedl pokrok. S vedoucím detailně diskutoval další kroky. | ||
Aktivita při dokončování | Aktivita při dokončování byla poklidná, text byl dodán ke kontrole cca 2 týdny před odevzdáním. Bylo navrženo několik úprav struktury a jazyka. Další kontrola textu ze strany vedoucího již neproběhla. Kód nástroje a experimenty byly dokončeny v čas. | ||
Publikační činnost, ocenění | Práce byla publikována na Excel@FIT . Vyvinutý nástroj by měl být zveřejněn na GitHub k volnému použití. |
Předložená práce je z programátorského hlediska velmi kvalitní. Technická zpráva, ačkoliv velmi čtivá, obsahuje drobné formální nedostatky. Zadání bylo ve všech bodech splněno. Knihovnu by bylo vhodné detailněji experimentálně prověřit.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Zadání zahrnovalo nastudování teorie zpracování řečových signálů a jejich augmentace spolu s explorací vhodných knihoven. Samotná práce vyžadovala částečné porozumění knihovně PyTorch a základní pochopení metod strojového učení pro trénování systému pro automatické rozpoznávání řeči. | ||
Rozsah splnění požadavků zadání | Zadání je podle mého názoru splněno. Byl vytvořen nástroj integrující různé knihovny pro aplikaci augmentace dat, který poskytuje jednotné rozhraní a byl zveřejněn v repozitáři PyPi. Jako drobný nedostatek vnímám bod 4, kde byl proveden pouze jeden experiment. | ||
Rozsah technické zprávy | Technická zpráva přesahuje formální minimum. Kapitola 6 je však informačně chudší a obsahuje části popisující platformu HuggingFace, Gradio a Google Colab, které nejsou zcela relevantní k obsahu práce. Ostatní kapitoly jsou slušně napsané a obsažné. | ||
Prezentační úroveň technické zprávy | 90 | Prezentační úroveň technické zprávy je velmi slušná. Kapitoly na sebe logicky navazují a práce se velmi dobře čte. Autor nejdříve představuje různé augmentace na vyšší úrovni abstrakce, doplněné o grafické ukázky v časové a frekvenční doméně. Pro názornost by však bylo vhodné do obrázků 2.2–2.7 zakomponovat i původní signál. Následně jsou představeny existující knihovny spolu s jejich výhodami a nedostatky. Diagramy, schémata a ukázky v kapitole 5 jsou velmi vydařené. | |
Formální úprava technické zprávy | 75 | Práce má slušnou formální úroveň a obsahuje minimum gramatických chyb. Některé obrázky, sekce a tabulky jsou v textu referovány pouze číselně (např. "...tak se v praxi využívají augmentace samotného zvukového signálu 2.1 a augmentace spektrogramu zvukového signálu 2.2."), nebo nejsou referovány vůbec, což znesnadňuje čitelnost. Vizuální stránka tabulek (zejména 4.1–4.3 a 6.1–6.3) by se dala zlepšit. | |
Práce s literaturou | 80 | Autor řádně cituje relevantní zdroje, až na [6] a [10], kde by bylo vhodné zvolit jiné, relevantnější varianty. Dokumentaci PyTorch [1] a Torchaudio [2] by bylo vhodné vynechat a uvést v poznámce pod čarou. Z práce je jasně patrné, co je přínos autora a co je převzato. | |
Realizační výstup | 80 | Hlavním výstupem práce je balíček AudioAugmentor, který byl zveřejněn v repozitáři PyPi. Zdrojové kódy jsou velmi kvalitní a řádně komentované. Balíček obsahuje velmi hezkou dokumentaci a ukázky, jak nástroj používat. Integrace do ekosystému PyTorch je implementována na úrovni Data Collatoru, což by se dalo do budoucna vylepšit. | |
Využitelnost výsledků | Autor vybudoval jednotné rozhraní nad několika knihovnami pro augmentaci dat v Pythonu. Balíček obecně vypadá použitelně a věřím, že po opravě několika drobností a detailnější verifikaci funkčnosti může být využit komunitou. |
eVSKP id 150975