Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou
Loading...
Date
Authors
Kováčiková, Jana
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Cieľom tejto práce je priblížiť proces simulovania akustiky miestnosti s ozvenou a dynamickými zmenami pozícií rečníka s použítím knižnice Pyroomacoustics. Súčasťou práce je získavanie vlastných dát v malej miestnosti (3,45 × 3,91 × 2,62 m), v ktorej sme manipulovali mierou ozveny odoberaním predmetov. Na účely automatického rozpoznávania reči boli vytvorené dva datasety. V prvom z nich bol pridaný dynamický pohyb bez ozveny (maximálna absorbcia stien), druhý obsahuje dynamický pohyb s pridanou ozvenou. Práca sa ďalej zaoberá adaptáciou modelu Whisper od spoločnosti OpenAI na vytvorených datasetoch. Adaptáciou modelu Whisper Medium na vytvorenej dátovej sade s ozvenou sa znížila hodnota WER o 4,89 % na evaluačných dátach.
This thesis aims to approach the process of simulating the acoustics of a room with reverberation and dynamic changes in speaker position using the Pyroomacoustics library. This work also involved acquiring our own data in a small room (3.45 × 3.91 × 2.62 m) where the reverberation was adjusted by removing objects. Two datasets were created for automatic speech recognition purposes. The first includes only movement without reverberation (maximal wall absorption), and the second dataset includes movement with added reverberation. The thesis further covers the adaptation of the automatic speech recognition model Whisper by OpenAI on the generated datasets. By fine-tuning the Whisper Medium model on a reverberation dataset, we decreased WER by 4.89 % on evaluation data.
This thesis aims to approach the process of simulating the acoustics of a room with reverberation and dynamic changes in speaker position using the Pyroomacoustics library. This work also involved acquiring our own data in a small room (3.45 × 3.91 × 2.62 m) where the reverberation was adjusted by removing objects. Two datasets were created for automatic speech recognition purposes. The first includes only movement without reverberation (maximal wall absorption), and the second dataset includes movement with added reverberation. The thesis further covers the adaptation of the automatic speech recognition model Whisper by OpenAI on the generated datasets. By fine-tuning the Whisper Medium model on a reverberation dataset, we decreased WER by 4.89 % on evaluation data.
Description
Citation
KOVÁČIKOVÁ, J. Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
sk
Study field
Informační technologie
Comittee
prof. Ing. Adam Herout, Ph.D. (předseda)
Ing. Vladimír Bartík, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)
doc. Mgr. Adam Rogalewicz, Ph.D. (člen)
Date of acceptance
2025-06-16
Defence
Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
