Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou

but.committeeprof. Ing. Adam Herout, Ph.D. (předseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSzőke, Igorcs
dc.contributor.authorBílek, Štěpáncs
dc.contributor.refereeČernocký, Jancs
dc.date.created2025cs
dc.description.abstractTato diplomová práce se zabývá simulací řeči pohybujícího se mluvčího v ozvěnou zatíženém prostředí jakožto specifickou formou augmentace dat pro automatické rozpoznávání řeči. Cílem je vytvořit nástroj, který na základě běžné audio nahrávky, rozměrů a materiálů místnosti, trajektorie a rychlosti zdroje zvuku, pozice mikrofonů a jejich směrových charakteristik vygeneruje co nejvěrnější záznam řeči, která by reálně vznikla v dané místnosti za předpokladu pohybu mluvčího. K implementaci je využita knihovna pyroomacoustics, umožňující modelování akustiky uzavřeného prostoru a vytváření příslušných impulsních odezev. Takto vytvořená data poté slouží k adaptaci modelu Whisper pro automatické rozpoznávání řeči.cs
dc.description.abstractThis thesis focuses on simulating speech from a moving speaker in a reverberant environment as a specialized form of data augmentation for automatic speech recognition. The primary goal is to develop a tool that, based on a standard audio recording, room dimensions and materials, the source trajectory and velocity, and the position and directional characteristics of microphones, can generate an audio recording that closely approximates the real sound of speech in motion within a given room. The implementation utilizes the pyroomacoustics library, which supports modeling of enclosed room acoustics and corresponding impulse responses. The resulting augmented data are then used to fine-tune the Whisper model for automatic speech recognitionen
dc.description.markDcs
dc.identifier.citationBÍLEK, Š. Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other164722cs
dc.identifier.urihttp://hdl.handle.net/11012/252816
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectAutomatické rozpoznávání řečics
dc.subjectaugmentace zvukových datcs
dc.subjectsimulacecs
dc.subjectakustikacs
dc.subjectimpulsní odezva místnostics
dc.subjectRIRcs
dc.subjectpyroomacousticscs
dc.subjectWhispercs
dc.subjectAutomatic speech recognitionen
dc.subjectaudio data augmentationen
dc.subjectsimulationen
dc.subjectacousticsen
dc.subjectroom impulse responseen
dc.subjectRIRen
dc.subjectpyroomacousticsen
dc.subjectWhisperen
dc.titleSimulace pohybujícího se řečníka/řečníků v místnosti s ozvěnoucs
dc.title.alternativeSimulation of moving speaker(s) in a reverberant roomen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2025-06-16cs
dcterms.modified2025-06-16-09:52:24cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid164722en
sync.item.dbtypeZPen
sync.item.insts2025.08.26 23:04:01en
sync.item.modts2025.08.26 19:43:42en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.05 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_164722.html
Size:
10.92 KB
Format:
Hypertext Markup Language
Description:
file review_164722.html

Collections