Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou

Bílek, Štěpán

Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou

Files

final-thesis.pdf (2.05 MB)

review_164722.html (10.92 KB)

Authors

Bílek, Štěpán

Advisor

Szőke, Igor

Referee

Černocký, Jan

Mark

D

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato diplomová práce se zabývá simulací řeči pohybujícího se mluvčího v ozvěnou zatíženém prostředí jakožto specifickou formou augmentace dat pro automatické rozpoznávání řeči. Cílem je vytvořit nástroj, který na základě běžné audio nahrávky, rozměrů a materiálů místnosti, trajektorie a rychlosti zdroje zvuku, pozice mikrofonů a jejich směrových charakteristik vygeneruje co nejvěrnější záznam řeči, která by reálně vznikla v dané místnosti za předpokladu pohybu mluvčího. K implementaci je využita knihovna pyroomacoustics, umožňující modelování akustiky uzavřeného prostoru a vytváření příslušných impulsních odezev. Takto vytvořená data poté slouží k adaptaci modelu Whisper pro automatické rozpoznávání řeči.
This thesis focuses on simulating speech from a moving speaker in a reverberant environment as a specialized form of data augmentation for automatic speech recognition. The primary goal is to develop a tool that, based on a standard audio recording, room dimensions and materials, the source trajectory and velocity, and the position and directional characteristics of microphones, can generate an audio recording that closely approximates the real sound of speech in motion within a given room. The implementation utilizes the pyroomacoustics library, which supports modeling of enclosed room acoustics and corresponding impulse responses. The resulting augmented data are then used to fine-tune the Whisper model for automatic speech recognition

Keywords

Automatické rozpoznávání řeči , augmentace zvukových dat , simulace , akustika , impulsní odezva místnosti , RIR , pyroomacoustics , Whisper , Automatic speech recognition , audio data augmentation , simulation , acoustics , room impulse response , RIR , pyroomacoustics , Whisper

Citation

BÍLEK, Š. Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

cs

Study field

Informační technologie

Comittee

prof. Ing. Adam Herout, Ph.D. (předseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen)

Date of acceptance

2025-06-16

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/252816

Collections

2025

Citace PRO

Full item page

Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO