Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou
Loading...
Date
Authors
Bílek, Štěpán
Advisor
Referee
Mark
D
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato diplomová práce se zabývá simulací řeči pohybujícího se mluvčího v ozvěnou zatíženém prostředí jakožto specifickou formou augmentace dat pro automatické rozpoznávání řeči. Cílem je vytvořit nástroj, který na základě běžné audio nahrávky, rozměrů a materiálů místnosti, trajektorie a rychlosti zdroje zvuku, pozice mikrofonů a jejich směrových charakteristik vygeneruje co nejvěrnější záznam řeči, která by reálně vznikla v dané místnosti za předpokladu pohybu mluvčího. K implementaci je využita knihovna pyroomacoustics, umožňující modelování akustiky uzavřeného prostoru a vytváření příslušných impulsních odezev. Takto vytvořená data poté slouží k adaptaci modelu Whisper pro automatické rozpoznávání řeči.
This thesis focuses on simulating speech from a moving speaker in a reverberant environment as a specialized form of data augmentation for automatic speech recognition. The primary goal is to develop a tool that, based on a standard audio recording, room dimensions and materials, the source trajectory and velocity, and the position and directional characteristics of microphones, can generate an audio recording that closely approximates the real sound of speech in motion within a given room. The implementation utilizes the pyroomacoustics library, which supports modeling of enclosed room acoustics and corresponding impulse responses. The resulting augmented data are then used to fine-tune the Whisper model for automatic speech recognition
This thesis focuses on simulating speech from a moving speaker in a reverberant environment as a specialized form of data augmentation for automatic speech recognition. The primary goal is to develop a tool that, based on a standard audio recording, room dimensions and materials, the source trajectory and velocity, and the position and directional characteristics of microphones, can generate an audio recording that closely approximates the real sound of speech in motion within a given room. The implementation utilizes the pyroomacoustics library, which supports modeling of enclosed room acoustics and corresponding impulse responses. The resulting augmented data are then used to fine-tune the Whisper model for automatic speech recognition
Description
Citation
BÍLEK, Š. Simulace pohybujícího se řečníka/řečníků v místnosti s ozvěnou [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
prof. Ing. Adam Herout, Ph.D. (předseda)
Ing. Vladimír Bartík, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)
doc. Mgr. Adam Rogalewicz, Ph.D. (člen)
Date of acceptance
2025-06-16
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.
Result of defence
práce byla úspěšně obhájena
