BOBOŠ, D. Hledání informací v nahrávkách řeči pomocí sémantických vektorů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Očekávané výsledky byly dosaženy. Práce má výzazný praktický paktický potenciál. Je zde okamžitá možnost implementace technik do nového produktu pro vytěřování řečových a textových zdrojů. Ocenuji srovnání dvou možných přístupů a praktický přístup k řešení jejich nedostatků, například vytvoření sémantického vektoru z textu přes syntézu řeči u první metody.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Práce využívá nejnovější poznatky v oblasti vyhledávání infomací v řeči nebo textu na základě sémantické podobnosti pomocí řečového nebo textového dotazu. Práce je náročnější z pohledu modelování dvou modalit (audia a textu). To klade vyšší nároky na přípravu dat, modelování, i na způsob vyhodnocení výsledků. Cílem bylo ověřit, že tyto techniky dokáží doplnit nebo nahradit dříve používané techniky detekce klíčových slov v řeči. Zadání bylo plně splněno a práce přinesla očekávané výsledky. | ||
Práce s literaturou | Student aktivně pracoval s literaturou, dokázal si najít relevantní zdroje, ty nastudovat a použít pro řešení práce. | ||
Aktivita během řešení, konzultace, komunikace | Student byl během řešení práce aktivní, své přístupy řádně konzultoval a na konzultace byl vždy připraven. | ||
Aktivita při dokončování | Práce byla dokončena v dostatečném předstihu a její definitivní obsah byl dostatečně konzultován. Vzhledem k tomu, že se student rozhodl napsat prácí v angličtině, což beru velmi kladně, jelikož to zvýší její dosah, tak bylo velké úsilí věnováno korekci anglického textu. Zde si myslím, že je ještě nějaký prostor pro zlepšení. | ||
Publikační činnost, ocenění | Práce zatím nebyla jinde publikována. O výsledky ale již projevila zájem firma Phonexia, a také složky spadající pod Ministerstvo obrany. |
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Zadání bych hodnotil jako obtížnější vzhledem k tomu ze student musel nastudovat velké množství materiálu z oblasti moderních přístupů pro přepis mluvené řeči (ASR), zpracování přirozeného jazyka (NLP) a jejich vzájemnému sjednocení pomocí vektorových reprezentací ( embeding s). Dále autor prozkoumává i možnost využití syntézy řeči, což je nad rámec zadání. | ||
Rozsah splnění požadavků zadání | |||
Rozsah technické zprávy | |||
Prezentační úroveň technické zprávy | 85 | Kapitoly jsou logicky poskládané a celkově se práce čte velice dobře. Líbil se mi pěkně zpracovaný úvod obsahující shrnutí velkého množství NLP a ASR přístupů. Mám pouze pár výtek: kapitola “Baselines” obsahuje nemalé množství experimentů, tedy by měla být sjednocena s následující kapitolou “Experiments”. str.4: “ Bag of Words ” přístup není přesně vysvětlen - je třeba jestě udělat sumu přes vektory slov v čase. rovnice 2.7 - chybí vysvětlení indexů i,j (id. jazyka?) str.10. Vysvětlení pod čarou ohledně objektivní funkce by mělo být součástí textu, takto je to zbytečné rozbité. str. 5.3. sekce Forced Alignment , by zasloužila více detailu. Zejména, jestli byla tato technika autorem implementována, pak je zde chybí: uvedení příkladu zarovnání. vysvětlení použití Wav2Vec pravděpodobností protože základní Wav2Vec pravděpodobnosti negeneruje. Jednalo se tedy pravděpodobně o nějaký fine-tuning. Jakého modelu a na jaká data? Pokud bylo zarovnání generováno externě - chybí zdroj. str.30.: TP, TN,FP a FN zkratky jsou vysvětleny až později v textu. | |
Formální úprava technické zprávy | 95 | Práce je napsána pěknou angličtinou, což zvyšuje její hodnotu a mám zde pouze pár připomínek: str 6.: sentences BERT -> sentences, BERT str.13: towards using -> towards of using str.17: assignments. a new -> assignments. A new str.26: as explained -> as will be explained str.37: query off before -> query before | |
Práce s literaturou | 90 | šechny prameny a externí zdroje jsou dobře citovány. V kapitole 4. “Joint representation models” mi chybí zmínka a odkaz na ASR systém od Googlu “ Maestro ”. Zde jsou audio i textová data taktéž mapována do jednotného prostoru a tedy využití tohoto přístupu v řešení Diplomové práce by bylo zajímavým přínosem. | |
Realizační výstup | 90 | ||
Využitelnost výsledků | V práci jsou srovnány a analyzovány přístupy pro jednotné vyhledávání ve zvukových nahrávkách pomocí textového nebo audio dotazu. Metoda využívá sjednocení obou modalit do jednotného prostoru, což výrazně zjednodušuje vyhledávání. Jedná se o nový a tedy i nedostatečně prozkoumaný přístup umožňující nejen klasické vyhledávání přesně vyslovené fráze, ale i sémantické vyhledávání slov/frází podobného významu. Tato úloha byla autorem též analyzována a výsledky této práce jsou tedy použitelné pro další výzkum v oblasti detekce klíčových slov. |
eVSKP id 156970