Hledání informací v nahrávkách řeči pomocí sémantických vektorů

Boboš, Dominik

Hledání informací v nahrávkách řeči pomocí sémantických vektorů

but.committee	prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Mgr. Lukáš Holík, Ph.D. (člen) doc. RNDr. Pavel Smrž, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.	cs
but.jazyk	angličtina (English)
but.program	Informační technologie a umělá inteligence	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Schwarz, Petr	en
dc.contributor.author	Boboš, Dominik	en
dc.contributor.referee	Karafiát, Martin	en
dc.date.created	2024	cs
dc.description.abstract	V současné době přetížené informacemi jsou efektivní metody vyhledávání informací velice žádané. Tato práce shrnuje metody pro získávání vektorových reprezentací pro text a zvuk, známé také jako sémantické vektory. Podívali jsme se hlouběji na multimodální mo\-de\-ly, jako jsou SpeechT5 a SeamlessM4T, které transformují tyto typy vstupu do jednoho sdíleného vektorového prostoru. Na základě těchto modelů jsme vybudovali systém, který nám umožňuje vyhledávat v datech bez ohledu na modalitu. Abychom mohli vyhodnotit navrhované řešení, kromě standardního rozpoznávání klíčových slov, také pro úlohy sémantického vyhledávání, manuálně jsme označili datovou sadu pro zachycení podobných sémantických významů klíčových slov nebo frází. Nakonec jsme provedli několik experimentů, kde jsme prozkoumali možnosti modelů omezením pozorovaného kontextu během dotrénovaní neuronové sítě nebo zapojením systémů převodu textu na řeč (TTS) ke zlepšení celkového výkonu.	en
dc.description.abstract	In the current era of information overload, efficient methods for information retrieval are crucial. This thesis summarises methods for obtaining vector representations for text and audio, also known as semantic vectors. We took a deeper look at joint-representation models such as SpeechT5 and SeamlessM4T, which transform these various forms of input into one shared vector space. Based on these models, we built a system which allows us to search in data regardless of the modality. In order to evaluate the proposed solution on semantic search tasks, apart from standard keyword spotting tasks, we labelled a dataset to capture similar semantic meanings of the keywords or phrases. Finally, we conducted several experiments, where we explored the possibilities of the models used by limiting the context seen during finetuning or involving text-to-speech (TTS) systems to improve overall performance.	cs
dc.description.mark	A	cs
dc.identifier.citation	BOBOŠ, D. Hledání informací v nahrávkách řeči pomocí sémantických vektorů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.	cs
dc.identifier.other	156970	cs
dc.identifier.uri	http://hdl.handle.net/11012/248576
dc.language.iso	en	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	sdílený vektorový prostor	en
dc.subject	sémantické vektory	en
dc.subject	vektorová reprezentace audia	en
dc.subject	slovní vektory	en
dc.subject	transformery	en
dc.subject	SSL modely	en
dc.subject	multimodální modely	en
dc.subject	detekce klíčových slov	en
dc.subject	sémantické prohledávání	en
dc.subject	vytěžování informací	en
dc.subject	shared embedding space	cs
dc.subject	semantic vectors	cs
dc.subject	audio embeddings	cs
dc.subject	word vectors	cs
dc.subject	transformers	cs
dc.subject	SSL models	cs
dc.subject	Joint-representation models	cs
dc.subject	multimodal models	cs
dc.subject	keyword spotting	cs
dc.subject	semantic search	cs
dc.subject	information retrieval	cs
dc.title	Hledání informací v nahrávkách řeči pomocí sémantických vektorů	en
dc.title.alternative	Search in speech recordings based on semantic vectors	cs
dc.type	Text	cs
dc.type.driver	masterThesis	en
dc.type.evskp	diplomová práce	cs
dcterms.dateAccepted	2024-06-17	cs
dcterms.modified	2024-06-17-15:10:41	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	156970	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.26 15:38:06	en
sync.item.modts	2025.01.15 13:51:35	en
thesis.discipline	Zpracování zvuku, řeči a přirozeného jazyka	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Inženýrský	cs
thesis.name	Ing.	cs

Files

Original bundle

Now showing 1 - 2 of 2

Name:: final-thesis.pdf
Size:: 6.03 MB
Format:: Adobe Portable Document Format
Description:: file final-thesis.pdf

Download

Name:: review_156970.html
Size:: 11.22 KB
Format:: Hypertext Markup Language
Description:: file review_156970.html

Download

Collections

2024