BALOK, P. Automatický přepis řeči letecké komunikace do textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Celkově hodnotím přístup studenta k řešení pro něho zcela nové problematiky velmi dobře. Pracoval aktivně, pravidelně a se zájmem o téma. Překážky dobře překonával a snažil se pochopit principy strojového učení. Výsledky práce jsou pro naši výzkumnou skupinu zajímavé.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Jednalo se o téma navazující na skončený projekt ATCO2. Student měl za úkol experimentovat s rozpoznávači řeči. Původní myšlenka byla, aby natrénoval vlastní rozpoznávače pro přepis letecké komunikace. Ke konci zimního semestru se však ukázalo jako schůdnější využít adaptaci Whisper modelu. Cílem práce bylo experimentovat s jevem code switching - změna jazyka během promluvy. Náročnost práce hodnotím celkově jako středně obtížnou. Obtížnější je část trénování vlastních modelů, Whisper je oproti tomu jednodušší. Pro studenta byla tato práce prvním setkáním s problematikou strojového učení a rozpoznávání řeči. Celkově jsem s výkonem a výsledky práce spokojen. | ||
Práce s literaturou | Student literaturu získával samostatně a aktivně. Doporučené zdroje hojně využíval. | ||
Aktivita během řešení, konzultace, komunikace | Student byl během řešení aktivní. Na konzultace docházel pravidelně každých 14 dní. Na konzultace přicházel připravený a ukázal znatelný postup při řešení práce. Nechal si poradit a rady se snažil aplikovat při řešení. | ||
Aktivita při dokončování | Aktivita při dokončování byla lehce vyšší. Dokončování však nebylo ve stresu. Víceméně finální text práce byl ke kontrole odevzdán na konci dubna, takže měl cca týden na zapracování připomínek. | ||
Publikační činnost, ocenění | Není |
Student měl za úkol dotrénovat stávající velké modely, které jsou standardně trénovány na čisté řeči, tak aby pracovali pro leteckou komunikaci (Air Traffic Controll - ATC), kde běžně selhávají. K tomuto účelu vytvořil bilinguální databázi sloučením standadních jednojazyčných dat. K trénování použil NVidia software NEMO a Whisper od OpenAI. Práce je dále využitelná pro adaptaci velkých modelů i pro jiné úlohy než ATC. Bohužel, text má nízkou prezentační úrověn a měl by být více konsultován. Z čtení sem občas nabýval dojem, že student plně nechápe jak jím implementované techniky pracují.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | |||
Rozsah splnění požadavků zadání | |||
Rozsah technické zprávy | |||
Prezentační úroveň technické zprávy | 58 | Práce je logicky strukturována, žel spousta sekcí je špatně či stroze vysvětlena. Například: str.6,8.: zkratka RNN, HMM není vystvětlena (RNN až později). str.7: Enkodér nezpracováva vstupní signál převedením na logmel spektrogram, to je chybné. Str.8: Chybí vztah mezi greedy a beam search, je to velice stroze vysvětleno. Str.9: CTC objektivní funkce je velice stroze až chybně vysvětlena. Str.11: self-attention blok je též velice stroze az chybně vysvětlen. Attention head se nazývá pouze pokud je attention bloků více. Jinak se jedná pouze o attention. Chybí vysvětlení co znamená "self-"attention o proti bežnému attention, které je autorem popsané. str. 17: model Quartznet - jaká je jeho přesná struktura, popřípadně přidat odkaz. Tabulka 4.4: čísla z modelu CitriNet jsou horší než v modelu QuartzNet ačkoliv ve shrnující tabulce 4.6. jsou již lepší... Jaké je proto vysvětlení. Chybí číslování rovnic v celé práci. | |
Formální úprava technické zprávy | 80 | Práce je dobře napsána jen s malým mnořstvím překlepů: str.19: Quartzunet -> Quartznet str.22: Whsiper -> Whisper | |
Práce s literaturou | 55 | V práci chybí velké množství relevantních odkazů/citací, vyberu ty nejdůležitějsí protože jsou hojně použity v autorem používaných modelech: str.8: chybí citace Attention modelu. str.9: chybí citace CTC objektivní funkce. str 22.: není odkazován model (popis modelu) whisper, ačkoliv se jedná o samostatnou kapitolu práce. | |
Realizační výstup | 80 | Student úspěšně vytvořil bilinguální databázi (čestina a angličtina v našem případě) pro trénování systému použitelného v ATC komunikaci a analyzoval její využití. Což je velice zajímavý přínos, neboť moderní multilingvální systémy mají tendenci jazyky "přepínat" místo generování více-jazyčného výstupu, což ATC komunikace standardně bývá. | |
Využitelnost výsledků | Zadání bylo splněno a navržený software je použitelný pro další použití. Adaptace velkých modelů je velice důležitá úloha zejména díky dostupnosti široké škály velkých modelů, které je velice obtížné natrénovat kvůli časová a hardwarové náročnosti. |
eVSKP id 139625