Hledání informací v nahrávkách řeči pomocí sémantických vektorů

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Mgr. Lukáš Holík, Ph.D. (člen) doc. RNDr. Pavel Smrž, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSchwarz, Petren
dc.contributor.authorBoboš, Dominiken
dc.contributor.refereeKarafiát, Martinen
dc.date.created2024cs
dc.description.abstractV současné době přetížené informacemi jsou efektivní metody vyhledávání informací velice žádané. Tato práce shrnuje metody pro získávání vektorových reprezentací pro text a zvuk, známé také jako sémantické vektory. Podívali jsme se hlouběji na multimodální mo\-de\-ly, jako jsou SpeechT5 a SeamlessM4T, které transformují tyto typy vstupu do jednoho sdíleného vektorového prostoru. Na základě těchto modelů jsme vybudovali systém, který nám umožňuje vyhledávat v datech bez ohledu na modalitu. Abychom mohli vyhodnotit navrhované řešení, kromě standardního rozpoznávání klíčových slov, také pro úlohy sémantického vyhledávání, manuálně jsme označili datovou sadu pro zachycení podobných sémantických významů klíčových slov nebo frází. Nakonec jsme provedli několik experimentů, kde jsme prozkoumali možnosti modelů omezením pozorovaného kontextu během dotrénovaní neuronové sítě nebo zapojením systémů převodu textu na řeč (TTS) ke zlepšení celkového výkonu.en
dc.description.abstractIn the current era of information overload, efficient methods for information retrieval are crucial. This thesis summarises methods for obtaining vector representations for text and audio, also known as semantic vectors. We took a deeper look at joint-representation models such as SpeechT5 and SeamlessM4T, which transform these various forms of input into one shared vector space. Based on these models, we built a system which allows us to search in data regardless of the modality. In order to evaluate the proposed solution on semantic search tasks, apart from standard keyword spotting tasks, we labelled a dataset to capture similar semantic meanings of the keywords or phrases. Finally, we conducted several experiments, where we explored the possibilities of the models used by limiting the context seen during finetuning or involving text-to-speech (TTS) systems to improve overall performance.cs
dc.description.markAcs
dc.identifier.citationBOBOŠ, D. Hledání informací v nahrávkách řeči pomocí sémantických vektorů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.cs
dc.identifier.other156970cs
dc.identifier.urihttp://hdl.handle.net/11012/248576
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectsdílený vektorový prostoren
dc.subjectsémantické vektoryen
dc.subjectvektorová reprezentace audiaen
dc.subjectslovní vektoryen
dc.subjecttransformeryen
dc.subjectSSL modelyen
dc.subjectmultimodální modelyen
dc.subjectdetekce klíčových sloven
dc.subjectsémantické prohledáváníen
dc.subjectvytěžování informacíen
dc.subjectshared embedding spacecs
dc.subjectsemantic vectorscs
dc.subjectaudio embeddingscs
dc.subjectword vectorscs
dc.subjecttransformerscs
dc.subjectSSL modelscs
dc.subjectJoint-representation modelscs
dc.subjectmultimodal modelscs
dc.subjectkeyword spottingcs
dc.subjectsemantic searchcs
dc.subjectinformation retrievalcs
dc.titleHledání informací v nahrávkách řeči pomocí sémantických vektorůen
dc.title.alternativeSearch in speech recordings based on semantic vectorscs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2024-06-17cs
dcterms.modified2024-06-17-15:10:41cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid156970en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 15:38:06en
sync.item.modts2025.01.15 13:51:35en
thesis.disciplineZpracování zvuku, řeči a přirozeného jazykacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
6.03 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_156970.html
Size:
11.22 KB
Format:
Hypertext Markup Language
Description:
file review_156970.html
Collections