Vylepšení kvality řeči bez supervize za pomoci neurálních audio kodeků

Klement, Dominik

Vylepšení kvality řeči bez supervize za pomoci neurálních audio kodeků

Files

final-thesis.pdf (14.89 MB)

review_165614.html (12.18 KB)

Authors

Klement, Dominik

Advisor

Burget, Lukáš

Referee

Brukner, Jan

Mark

A

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Táto práca sa zaoberá skúmaním spôsobov na vylepšenie reči pomocou neurálnych audio kodekov. Štandardné supervizované metody sa spoliehajú na umelo vytvorené dáta z párov zašumenej a čistej reči, čo môže sposobiť problémy s generalizáciou na reálne audio. Ako riešenie v tejto práci predstavujeme novú dvoj-vetvovú architektúru, ktorá umožňuje separáciu čistej reči a šumu bez potreby párových dát. Navrhnutý systém využíva adversariálny tréning s vetvovými disrkiminátormi, ktoré zaručujú že jedna vetva bude produkovať čistú reč a druhá šum. Pre zaručenie konzistencie medzi čistou rečou a vstupnou zašumenou nahrávkou, systém je trénovaný tak aby súčet výstupov z daných vetví odpovedal vstupnému zašumenému audiu. Naviac pritom používa vektorovú kvantizáciu na kontrolu priepustnosti latentných reprezentácií pre kontrolu interferencie medzi vetvami. Navrhnutý model je vyhodnotení na supervizovanom aj nesupervizovanom učení za použitie širokej škály objektívnych, percepčných a downstream metrík. Rozsiahle experimenty validujú efektivitu navrhnutého riešenia a demonštrujú jeho schopnosť vylepšiť kvalitu reči syntetických aj skutočných nahrávok bez použitia explicitnej supervízie. Výsledky ukazujú že systém je porovnateľný s predchádzajúcimi riešeniami a umožňuje vylepšenie audia v reálnom čase.
This thesis investigates approaches to speech enhancement using neural audio codecs (NACs). Traditional supervised methods rely on artificially simulated datasets of paired clean and noisy speech, which might fail to generalize to real-world conditions. To address these limitations, this work introduces a novel dual-branch architecture that enables clean speech/noise decomposition without requiring paired data. The system employs adversarial training with branch-specific discriminators to guide one branch toward generating clean speech and the other toward generating noise. To ensure consistency between the input and the enhanced output, the system also enforces that the sum of the two branches closely resembles the original noisy input. Additionally, vector quantization is used to control latent bandwidth and reduce interference between the branches. The model is evaluated across supervised and unsupervised settings using a wide range of objective, perceptual, and downstream metrics. Extensive experiments validate the effectiveness of the proposed approach, demonstrating its ability to enhance speech quality in both synthetic and real-world noisy environments without explicit supervision. The results show that the model performs comparably to prior work while offering high efficiency, enabling real-time audio enhancement.

Keywords

Vylepšenie Reči , Neurálny Audio Kodek , Spracovanie Reči , Hlboké Učenie , Učenie bez Supervízie , Adversariálne Trénovanie , Speech Enhancement , Neural Audio Codecs , Speech Processing , Deep Learning , Unsupervised Learning , Adversarial Training

Citation

KLEMENT, D. Vylepšení kvality řeči bez supervize za pomoci neurálních audio kodeků [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

en

Study field

Strojové učení

Comittee

doc. Ing. Lukáš Burget, Ph.D. (předseda) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)

Date of acceptance

2025-06-26

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/255140

Collections

2025

Citace PRO

Full item page

Vylepšení kvality řeči bez supervize za pomoci neurálních audio kodeků

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO