NOVÁKOVÁ, M. Automatická segmentace řeči pro VHF kanál [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.

Posudky

Posudek vedoucího

Szőke, Igor

Celkově hodnotím přístup studentky k řešení pro ni zcela nové problematiky velmi dobře. Pracovala aktivně, pravidelně a se zájmem o téma. Překážky dobře překonávala a snažila se pochopit principy strojového učení a zpracování řeči.

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Jednalo se o téma navazující na skončený projekt ATCO2. Studentka měla za úkol identifikovat a ověřit metody detekce řeči a Push-To-Talk (PTT) událostí ve zvukovém záznamu letecké komunikace. Náročnost práce hodnotím jako středně obtížnou. Část strojového učení je spíše jednodušší, obtížnější naopak byla neexistence trénovacích dat pro PTT a nutnost jejich tvorby. Studentka pojala práci jako svoje první seznámení s doménou strojového učení. Její přístup byl bottom-up, tedy implementovala metody od jednodušších čistě signálových přístupů, přes základní neuronové sítě po adaptaci předtrénovaných konvolučních sítí. Celkově jsem s výkonem a výsledky práce spokojen.
Práce s literaturou Studentka literaturu získávala samostatně a aktivně. Doporučené zdroje hojně využívala.
Aktivita během řešení, konzultace, komunikace Studentka byla během řešení aktivní. Na konzultace docházela víceméně pravidelně. Během zimního semestru cca 1x za 3 týdny, v letním semestru se aktivita zvýšila. Na každých konzultacích ukázala znatelný postup při řešení práce. Občas jí bylo třeba vysvětlit některé základní zákonitosti zpracování řeči a strojového učení.
Aktivita při dokončování Aktivita při dokončování byla vyšší. Studentka chodila na konzultace každý týden. Dokončování však nebylo ve výrazném stresu. Víceméně finální text práce byl ke kontrole odevzdán na konci dubna, takže měla cca týden na zapracování připomínek.
Publikační činnost, ocenění Není
Navrhovaná známka
B
Body
85

Posudek oponenta

Veselý, Karel

S přihlédnutím k některým nedostatkům, ale i ke kladným stránkám, hodnotím "B".

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Cílem práce je vytvořit systém pro detekci řeči a push-to-talk signálu v audio nahrávce s využitím neuronových sítí. Studentka se seznámila se strojovým učením, architekturami modelů, extrakcí příznaků, a dále pak existujícím projektem GPVAD pro detekci řeči. Zadání je obsáhlé na množství informací i implementačně a je tedy náročnější.
Rozsah splnění požadavků zadání Studentka trénovala dvě architektury neuronových sítí z náhodných vah. Dále pak adaptovala exstující model GPVAD na novou úlohu. A taky bylo nutné vyvinout algoritmus pro anotaci push-to-talk artefaktů. V experimentální části chybí vyhodnocení efektu augmentace dat. Na druhou stranu práce obsahuje i rozšíření nad rámec zadání (fine-tuning existujícího modelu).
Rozsah technické zprávy Technická zpráva je informačně bohatá a rozsahově v obvyklém rozmezí.
Prezentační úroveň technické zprávy 75 Technická zpráva je vhodně strukturovaná, obsahuje kvalitní informace, ale i některé nepřesnosti: - Vzorec 2.5 (str 8) : vzorec je pro binární cross-entropii pro model s jedním výstupem, ale v modelech je použitý softmax se 2 výstupy. - Vzorec VAD (str 15) : vzorec je pro VAD s GMM, ale pro experimety je použítá neuronová síť. - Spektrogram v Obrázku 4.3 (str 23) : energie pro frekvenci nad 4kHz by měly být minimální. V experimentální části mi chybělo závěrečné přehledné porovnání všech modelů v jedné tabulce. Na druhou stranu oceňuji přehledný popis architektur neuronových sítí a hodnotících metrik.
Formální úprava technické zprávy 75 U číselných referencí v textu občas chybí slova "Figure", "Table", "Equation". Rovnice VAD na straně 15 není očíslovaná.
Práce s literaturou 90 Technická zpráva vhodně a hojně cituje odborné články i stránky na Internetu.
Realizační výstup 85 Zdrojový kód je vhodně strukturovaný do modulů. Čitelnost kódu je dobrá.
Využitelnost výsledků Jedná se o experimentální práci se strojovým učením pro dané úlohy a vyhodnocení úspěšnosti jsou nové poznatky. Natrénovaný push-to-talk detektor by se dal použít v praxi. Dobře využitelný pro nahrávky z ATCO2 projektu je i nově vyvinutý PEEK algoritmus, operující přímo v časové oblasti.
Navrhovaná známka
B
Body
80

Otázky

eVSKP id 140508