BOBOŠ, D. Hledání informací v nahrávkách řeči pomocí sémantických vektorů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Posudky

Posudek vedoucího

Schwarz, Petr

Očekávané výsledky byly dosaženy. Práce má výzazný praktický paktický potenciál. Je zde okamžitá možnost implementace technik do nového produktu pro vytěřování řečových a textových zdrojů. Ocenuji  srovnání dvou možných přístupů a praktický přístup k řešení jejich nedostatků, například vytvoření sémantického vektoru z textu přes syntézu řeči u první metody. 

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Informace k zadání Práce využívá nejnovější poznatky v oblasti vyhledávání infomací v řeči nebo textu na základě sémantické podobnosti pomocí řečového nebo textového dotazu. Práce je náročnější z pohledu modelování dvou modalit (audia a textu). To klade vyšší nároky na přípravu dat, modelování, i na způsob vyhodnocení výsledků. Cílem bylo ověřit, že tyto techniky dokáží doplnit nebo nahradit dříve používané techniky detekce klíčových slov v řeči. Zadání bylo plně splněno a práce přinesla očekávané výsledky. 
Práce s literaturou Student aktivně pracoval s literaturou, dokázal si najít relevantní zdroje, ty nastudovat a použít pro řešení práce.
Aktivita během řešení, konzultace, komunikace Student byl během řešení práce aktivní, své přístupy řádně konzultoval a na konzultace byl vždy připraven.
Aktivita při dokončování Práce byla dokončena v dostatečném předstihu a její definitivní obsah byl dostatečně konzultován. Vzhledem k tomu, že se student rozhodl napsat prácí v angličtině, což beru velmi kladně, jelikož to zvýší její dosah, tak bylo velké úsilí věnováno korekci anglického textu. Zde si myslím, že je ještě nějaký prostor pro zlepšení.
Publikační činnost, ocenění Práce zatím nebyla jinde publikována. O výsledky ale již projevila zájem  firma Phonexia, a také složky spadající pod Ministerstvo obrany.
Navrhovaná známka
A
Body
90

Posudek oponenta

Karafiát, Martin

Dílčí hodnocení
Kritérium Známka Body Slovní hodnocení
Náročnost zadání Zadání bych hodnotil jako obtížnější vzhledem k tomu ze student musel nastudovat velké množství materiálu z oblasti moderních přístupů pro přepis mluvené řeči (ASR), zpracování přirozeného jazyka (NLP) a jejich vzájemnému sjednocení pomocí vektorových reprezentací ( embeding s). Dále autor prozkoumává i možnost využití syntézy řeči, což je nad rámec zadání.
Rozsah splnění požadavků zadání
Rozsah technické zprávy
Prezentační úroveň technické zprávy 85 Kapitoly jsou logicky poskládané a celkově se práce čte velice dobře. Líbil se mi pěkně zpracovaný úvod obsahující shrnutí velkého množství NLP a ASR přístupů. Mám pouze pár výtek: kapitola “Baselines” obsahuje nemalé množství experimentů, tedy by měla být sjednocena s následující kapitolou “Experiments”. str.4: “ Bag of Words ” přístup není přesně vysvětlen - je třeba jestě udělat sumu přes vektory slov v čase. rovnice 2.7 - chybí vysvětlení indexů i,j (id. jazyka?) str.10. Vysvětlení pod čarou ohledně objektivní funkce by mělo být součástí textu, takto je to zbytečné rozbité. str. 5.3. sekce Forced Alignment , by zasloužila více detailu. Zejména, jestli byla tato technika autorem implementována, pak je zde chybí: uvedení příkladu zarovnání. vysvětlení použití Wav2Vec pravděpodobností protože základní Wav2Vec pravděpodobnosti negeneruje. Jednalo se tedy pravděpodobně o nějaký fine-tuning. Jakého modelu a na jaká data? Pokud bylo zarovnání generováno externě - chybí zdroj. str.30.: TP, TN,FP a FN zkratky jsou vysvětleny až později v textu.
Formální úprava technické zprávy 95 Práce je napsána pěknou angličtinou, což zvyšuje její hodnotu a mám zde pouze pár připomínek: str 6.: sentences BERT -> sentences, BERT str.13: towards using -> towards of using str.17: assignments. a new -> assignments. A new str.26: as explained -> as will be explained str.37: query off before -> query before
Práce s literaturou 90 šechny prameny a externí zdroje jsou dobře citovány. V kapitole 4. “Joint representation models” mi chybí zmínka a odkaz na ASR systém od Googlu “ Maestro ”. Zde jsou audio i textová data taktéž mapována do jednotného prostoru a tedy využití tohoto přístupu v řešení Diplomové práce by bylo zajímavým přínosem.
Realizační výstup 90
Využitelnost výsledků V práci jsou srovnány a analyzovány přístupy pro jednotné vyhledávání ve zvukových nahrávkách pomocí textového nebo audio dotazu. Metoda využívá sjednocení obou modalit do jednotného prostoru, což výrazně zjednodušuje vyhledávání. Jedná se o nový a tedy i nedostatečně prozkoumaný přístup umožňující nejen klasické vyhledávání přesně vyslovené fráze, ale i sémantické vyhledávání slov/frází podobného významu. Tato úloha byla autorem též analyzována a výsledky této práce jsou tedy použitelné pro další výzkum v oblasti detekce klíčových slov.
Navrhovaná známka
A
Body
90

Otázky

eVSKP id 156970