BALOK, P. Automatický přepis řeči letecké komunikace do textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Szőke, Igor

Celkově hodnotím přístup studenta k řešení pro něho zcela nové problematiky velmi dobře. Pracoval aktivně, pravidelně a se zájmem o téma. Překážky dobře překonával a snažil se pochopit principy strojového učení. Výsledky práce jsou pro naši výzkumnou skupinu zajímavé.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Jednalo se o téma navazující na skončený projekt ATCO2. Student měl za úkol experimentovat s rozpoznávači řeči. Původní myšlenka byla, aby natrénoval vlastní rozpoznávače pro přepis letecké komunikace. Ke konci zimního semestru se však ukázalo jako schůdnější využít adaptaci Whisper modelu. Cílem práce bylo experimentovat s jevem code switching - změna jazyka během promluvy. Náročnost práce hodnotím celkově jako středně obtížnou. Obtížnější je část trénování vlastních modelů, Whisper je oproti tomu jednodušší. Pro studenta byla tato práce prvním setkáním s problematikou strojového učení a rozpoznávání řeči. Celkově jsem s výkonem a výsledky práce spokojen.
Práce s literaturou Student literaturu získával samostatně a aktivně. Doporučené zdroje hojně využíval.
Aktivita během řešení, konzultace, komunikace Student byl během řešení aktivní. Na konzultace docházel pravidelně každých 14 dní. Na konzultace přicházel připravený a ukázal znatelný postup při řešení práce. Nechal si poradit a rady se snažil aplikovat při řešení.
Aktivita při dokončování Aktivita při dokončování byla lehce vyšší. Dokončování však nebylo ve stresu. Víceméně finální text práce byl ke kontrole odevzdán na konci dubna, takže měl cca týden na zapracování připomínek.
Publikační činnost, ocenění Není
Navrhovaná známka
B
Body
85

Posudek oponenta

Karafiát, Martin

   Student měl za úkol dotrénovat stávající velké modely, které jsou standardně trénovány na čisté řeči, tak aby pracovali pro leteckou komunikaci (Air Traffic Controll - ATC), kde běžně selhávají. K tomuto účelu vytvořil bilinguální databázi sloučením standadních jednojazyčných dat.  K trénování použil NVidia software NEMO a Whisper od OpenAI.  Práce je dále využitelná pro adaptaci velkých modelů i pro jiné úlohy než ATC. Bohužel, text má nízkou prezentační úrověn a měl by být více konsultován. Z čtení sem občas nabýval dojem, že student plně nechápe jak jím implementované techniky pracují.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání
Rozsah splnění požadavků zadání
Rozsah technické zprávy
Prezentační úroveň technické zprávy 58 Práce je logicky strukturována, žel spousta sekcí je špatně či stroze vysvětlena. Například: str.6,8.: zkratka RNN, HMM není vystvětlena (RNN až později). str.7: Enkodér nezpracováva vstupní signál převedením na logmel spektrogram, to je chybné. Str.8: Chybí vztah mezi greedy a beam search, je to velice stroze vysvětleno. Str.9: CTC objektivní funkce je velice stroze až chybně vysvětlena. Str.11: self-attention blok je též velice stroze az chybně vysvětlen. Attention head se nazývá pouze pokud je attention bloků více. Jinak se jedná pouze o attention. Chybí vysvětlení co znamená "self-"attention o proti bežnému attention, které je autorem popsané. str. 17: model Quartznet - jaká je jeho přesná struktura, popřípadně přidat odkaz. Tabulka 4.4: čísla z modelu CitriNet jsou horší než v modelu QuartzNet ačkoliv ve shrnující tabulce 4.6. jsou již lepší... Jaké je proto vysvětlení. Chybí číslování rovnic v celé práci.
Formální úprava technické zprávy 80 Práce je dobře napsána jen s malým mnořstvím překlepů: str.19: Quartzunet -> Quartznet str.22: Whsiper -> Whisper
Práce s literaturou 55 V práci chybí velké množství relevantních odkazů/citací, vyberu ty nejdůležitějsí protože jsou hojně použity v autorem používaných modelech: str.8: chybí citace Attention modelu. str.9: chybí citace CTC objektivní funkce. str 22.: není odkazován model (popis modelu) whisper, ačkoliv se jedná o samostatnou kapitolu práce.
Realizační výstup 80 Student úspěšně vytvořil bilinguální databázi (čestina a angličtina v našem případě) pro trénování systému použitelného v ATC komunikaci a analyzoval její využití. Což je velice zajímavý přínos, neboť moderní multilingvální systémy mají tendenci jazyky "přepínat" místo generování více-jazyčného výstupu, což ATC komunikace standardně bývá.  
Využitelnost výsledků Zadání bylo splněno a navržený software je použitelný pro další použití. Adaptace velkých modelů je velice důležitá úloha zejména díky dostupnosti široké škály velkých modelů, které je velice obtížné natrénovat kvůli časová a hardwarové náročnosti.  
Navrhovaná známka
C
Body
79

Otázky

eVSKP id 139625