Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou

Kováčiková, Jana

Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou

Files

final-thesis.pdf (12.52 MB)

review_158850.html (11.31 KB)

Authors

Kováčiková, Jana

Advisor

Szőke, Igor

Referee

Černocký, Jan

Mark

B

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Cieľom tejto práce je priblížiť proces simulovania akustiky miestnosti s ozvenou a dynamickými zmenami pozícií rečníka s použítím knižnice Pyroomacoustics. Súčasťou práce je získavanie vlastných dát v malej miestnosti (3,45 × 3,91 × 2,62 m), v ktorej sme manipulovali mierou ozveny odoberaním predmetov. Na účely automatického rozpoznávania reči boli vytvorené dva datasety. V prvom z nich bol pridaný dynamický pohyb bez ozveny (maximálna absorbcia stien), druhý obsahuje dynamický pohyb s pridanou ozvenou. Práca sa ďalej zaoberá adaptáciou modelu Whisper od spoločnosti OpenAI na vytvorených datasetoch. Adaptáciou modelu Whisper Medium na vytvorenej dátovej sade s ozvenou sa znížila hodnota WER o 4,89 % na evaluačných dátach.
This thesis aims to approach the process of simulating the acoustics of a room with reverberation and dynamic changes in speaker position using the Pyroomacoustics library. This work also involved acquiring our own data in a small room (3.45 × 3.91 × 2.62 m) where the reverberation was adjusted by removing objects. Two datasets were created for automatic speech recognition purposes. The first includes only movement without reverberation (maximal wall absorption), and the second dataset includes movement with added reverberation. The thesis further covers the adaptation of the automatic speech recognition model Whisper by OpenAI on the generated datasets. By fine-tuning the Whisper Medium model on a reverberation dataset, we decreased WER by 4.89 % on evaluation data.

Keywords

akustika miestnosti , ozvena , impulzná odozva miestnosti , automatické rozpoznávanie reči , room acoustics , reverberation , room impulse response , automatic speech recognition

Citation

KOVÁČIKOVÁ, J. Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

sk

Study field

Informační technologie

Comittee

prof. Ing. Adam Herout, Ph.D. (předseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen)

Date of acceptance

2025-06-16

Defence

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm B.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/252759

Collections

2025

Citace PRO

Full item page

Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO