Odhad impulsní odezvy místnosti z řečového signálu

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Proč jste v rovnicích 3.10 a 3.14 zvolil zrovna průměr? Nebyla by průměrná odchylka či rozptyl vhodnější? Ukažte příklady slov obsahující foném T. Proč jste vybral zrovna tato slova? Můžete jasně definovat jaký byl váš baseline? Můžete porovnat množství trénovacích dat s velikostí modelu? Co počítaly rovnice 3.10 a 3.14? Jaké místnosti obsahoval dataset? Jsou z hlediska impulzní odezvy lepší menší nebo větší místnosti?cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorČernocký, Janen
dc.contributor.authorGregor, Adamen
dc.contributor.refereeSzőke, Igoren
dc.date.created2020cs
dc.description.abstractJakýkoliv zvuk šířící se místností je zkreslen impulsní odezvou této místnosti. Měření těchto impulsních odezev bylo vždy důležitou úlohou akustiky, která v dnešní době ještě nabyla na důležitosti, díky možnosti požití impulsních odezev při augmentaci dat pro účely trénování automatických rozpoznávačů řeči. Standardně je impulsní odezva místnosti měřena za pomoci čisté a zkreslené formy zvukového signálu. To je však v praxi nepraktické (například u domácích asistentů či chytrých domů), neboť zde je k dispozici jen zkreslený signál. Tato bakalářská práce se zabývá odhadem impulsní odezvy "naslepo, pouze pomocí zkresleného řečového signálu. Nejdříve jsme za použití datasetu BUT ReverbDB re-implementovali standardní techniky pro měření impulsní odezvy z čistého/zkresleného signálu. Poté jsme testovali dvě techniky odhadující impulsní odezvu místnosti pouze ze zkreslené řeči.  První technika k tomu používá impulsní fonémy ve zkreslené řeči, u kterých se předpokládá, že se podobají impulsním odezvám místností. Bylo testováno průměrování a dekonvoluce těchto fonémů za účelem zvýšení kvality a robustnosti odhadu. Druhá technika využívá regresní neuronové sítě generující impulsní odezvy místností z řeči na vstupu. Ačkoliv žádná z navrhovaných technik nedosahuje odhadů na úrovni standardních měření, mají tyto odhady potenciál při augmentaci dat pro trénování automatických rozpoznávačů řeči.en
dc.description.abstractWhen travelling in a room, any sound is distorted by a room impulse response (RIR). Determining RIR has always been an important task in acoustics, but nowadays, it is even more important, as RIR can be used to augment data for training automatic speech recognition (ASR) systems. Classically, a RIR is estimated from a pair of clean and reverberated sound signals. This is however not practical for real scenarios (such as personal assistants, smart homes, etc.), as the clean signal is not available. The aim of the bachelor thesis is to investigate ''blind'' RIR estimation only from a reverberated speech signal. We have used the BUT ReverbDB data set and first, re-implemented techniques for classical clean-reverberated signals estimation of RIRs. Then, we investigated two techniques for RIR estimation only from a reverberated signal. The first technique uses reverberated impulse-like phonemes in speech which are expected to resemble RIR. Averaging and deconvolution of these phonemes were tested to improve the quality and robustness of the estimation. The second technique makes use of a regression neural networks trained to produce the RIR from a speech input. Although none of the techniques reaches the quality of classical measurement, the estimated RIRs have the potential to help in augmenting data for ASR system training.cs
dc.description.markBcs
dc.identifier.citationGREGOR, A. Odhad impulsní odezvy místnosti z řečového signálu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020.cs
dc.identifier.other129132cs
dc.identifier.urihttp://hdl.handle.net/11012/191492
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectOdhad Impulsní odezvy místnostien
dc.subjectŘečový signálen
dc.subjectRoom Impulse Response Estimationcs
dc.subjectSpeech signalcs
dc.titleOdhad impulsní odezvy místnosti z řečového signáluen
dc.title.alternativeRoom Impulse Response Estimation from Speech Signalcs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2020-07-10cs
dcterms.modified2020-07-13-23:41:08cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid129132en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:29:40en
sync.item.modts2025.01.15 12:50:40en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
3.74 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-21947_v.pdf
Size:
85.89 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-21947_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-21947_o.pdf
Size:
89.04 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-21947_o.pdf
Loading...
Thumbnail Image
Name:
review_129132.html
Size:
1.45 KB
Format:
Hypertext Markup Language
Description:
file review_129132.html
Collections