Vylepšení kvality řeči bez supervize za pomoci neurálních audio kodeků

but.committeedoc. Ing. Lukáš Burget, Ph.D. (předseda) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Lukášen
dc.contributor.authorKlement, Dominiken
dc.contributor.refereeBrukner, Janen
dc.date.accessioned2025-06-27T04:00:32Z
dc.date.available2025-06-27T04:00:32Z
dc.date.created2025cs
dc.description.abstractTáto práca sa zaoberá skúmaním spôsobov na vylepšenie reči pomocou neurálnych audio kodekov. Štandardné supervizované metody sa spoliehajú na umelo vytvorené dáta z párov zašumenej a čistej reči, čo môže sposobiť problémy s generalizáciou na reálne audio. Ako riešenie v tejto práci predstavujeme novú dvoj-vetvovú architektúru, ktorá umožňuje separáciu čistej reči a šumu bez potreby párových dát. Navrhnutý systém využíva adversariálny tréning s vetvovými disrkiminátormi, ktoré zaručujú že jedna vetva bude produkovať čistú reč a druhá šum. Pre zaručenie konzistencie medzi čistou rečou a vstupnou zašumenou nahrávkou, systém je trénovaný tak aby súčet výstupov z daných vetví odpovedal vstupnému zašumenému audiu. Naviac pritom používa vektorovú kvantizáciu na kontrolu priepustnosti latentných reprezentácií pre kontrolu interferencie medzi vetvami. Navrhnutý model je vyhodnotení na supervizovanom aj nesupervizovanom učení za použitie širokej škály objektívnych, percepčných a downstream metrík. Rozsiahle experimenty validujú efektivitu navrhnutého riešenia a demonštrujú jeho schopnosť vylepšiť kvalitu reči syntetických aj skutočných nahrávok bez použitia explicitnej supervízie. Výsledky ukazujú že systém je porovnateľný s predchádzajúcimi riešeniami a umožňuje vylepšenie audia v reálnom čase.en
dc.description.abstractThis thesis investigates approaches to speech enhancement using neural audio codecs (NACs). Traditional supervised methods rely on artificially simulated datasets of paired clean and noisy speech, which might fail to generalize to real-world conditions. To address these limitations, this work introduces a novel dual-branch architecture that enables clean speech/noise decomposition without requiring paired data. The system employs adversarial training with branch-specific discriminators to guide one branch toward generating clean speech and the other toward generating noise. To ensure consistency between the input and the enhanced output, the system also enforces that the sum of the two branches closely resembles the original noisy input. Additionally, vector quantization is used to control latent bandwidth and reduce interference between the branches. The model is evaluated across supervised and unsupervised settings using a wide range of objective, perceptual, and downstream metrics. Extensive experiments validate the effectiveness of the proposed approach, demonstrating its ability to enhance speech quality in both synthetic and real-world noisy environments without explicit supervision. The results show that the model performs comparably to prior work while offering high efficiency, enabling real-time audio enhancement.cs
dc.description.markAcs
dc.identifier.citationKLEMENT, D. Vylepšení kvality řeči bez supervize za pomoci neurálních audio kodeků [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other165614cs
dc.identifier.urihttps://hdl.handle.net/11012/255140
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectVylepšenie Rečien
dc.subjectNeurálny Audio Kodeken
dc.subjectSpracovanie Rečien
dc.subjectHlboké Učenieen
dc.subjectUčenie bez Supervízieen
dc.subjectAdversariálne Trénovanieen
dc.subjectSpeech Enhancementcs
dc.subjectNeural Audio Codecscs
dc.subjectSpeech Processingcs
dc.subjectDeep Learningcs
dc.subjectUnsupervised Learningcs
dc.subjectAdversarial Trainingcs
dc.titleVylepšení kvality řeči bez supervize za pomoci neurálních audio kodekůen
dc.title.alternativeTowards Unsupervised Speech Enhancement using Neural Audio Codecscs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2025-06-26cs
dcterms.modified2025-06-26-12:23:01cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid165614en
sync.item.dbtypeZPen
sync.item.insts2025.06.27 06:00:32en
sync.item.modts2025.06.27 05:32:17en
thesis.disciplineStrojové učenícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
14.89 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_165614.html
Size:
12.18 KB
Format:
Hypertext Markup Language
Description:
file review_165614.html
Collections