Dereverberace založená na neuronových sítích

Loading...
Thumbnail Image

Date

Authors

Karlík, Pavol

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

V posledných rokoch sa rozrástlo využitie neurónových sietí v oblasti spracovania reči. Táto bakalárska práca sa zaoberá implementáciou a vyhodnocovaním algoritmu na odstránenie dozvuku (reverberácie), ktorý využíva hlboké neurónové siete pre odhad výkonového spektra z rečovej nahrávky. Tento algoritmus je založený na najmodernejšom algoritme, Weighted prediction error (WPE), ktorý dokáže zredukovať reverberáciu z rečovej nahrávky. Táto práca obsahuje sumarizáciu teórie o dereverberácii, neurónových sieťach a algoritme WPE. V tejto práci sa experimentovalo s rôznymi architektúrami neurónových sietí, ktoré následne boli natrénované na rozdielnych dátových sadách s rôznymi vlastnosťami. Výsledky experimentov ukazujú, že naša modifikácia WPE dosahuje lepších výsledkov ako konvenčný algoritmus, a to najmä pre situácie, v ktorých je dĺžka spracovaného signálu krátka.
In the past years, the usage of neural networks in speech processing has increased significantly. This thesis focuses on implementing and evaluating a speech dereverberation framework that utilizes a deep neural network (DNN) to estimate the power spectral density of the signal. The proposed framework is based on the state-of-the-art speech enhancement algorithm called Weighted prediction error (WPE), which is known to effectively reduce reverberation from the speech signal. This thesis summarizes the theory of dereverberation, neural networks and the Weighted prediction error algorithm. Different DNN architectures are experimented with and trained using different datasets with varying properties. The results have shown that our framework is able to outperform the conventional WPE, especially in situations where duration of processed signal is short.

Description

Citation

KARLÍK, P. Dereverberace založená na neuronových sítích [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2018.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační technologie

Comittee

prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) doc. RNDr. Michal Novák, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen)

Date of acceptance

2018-06-12

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm "A". Otázky u obhajoby: Vysvětlete (např. na schématu) vzorec pro Vanilla WPE ve spektrání oblasti 4.2 a uveďte, jaký je spodní limit a délka impulsní odezvy Dk a Lk v milisekundách a zda se tyto délky liší pro jednotlivé spektrální biny k. Uveďte, jak je definována míra log likelihood ratio (LLR) pomocí LPC koeficientů, viz sekce 7.1.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO