Non-Parallel Voice Conversion
but.committee | prof. Dr. Ing. Jan Černocký (předseda) prof. Ing. Adam Herout, Ph.D. (místopředseda) Ing. David Bařina, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Zkuste zhodnotit jaké jsou v reálu výpočetní nároky vámi navrženého systému a jaké je teoretické nejmenší a případně reálné zpoždění při online konverzi. Je systém tohoto typu využitelný pro online spoofing útok a případné oklamání liveness testu? Ako probíhá liveness test u mluvčího? | cs |
but.jazyk | angličtina (English) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Černocký, Jan | en |
dc.contributor.author | Brukner, Jan | en |
dc.contributor.referee | Plchot, Oldřich | en |
dc.date.created | 2020 | cs |
dc.description.abstract | Cílem konverze hlasu (voice conversion, VC) je převést hlas zdrojového řečníka na hlas cílového řečníka. Technika je populární je u vtipných internetových videí, ale má také řadu seriózních využití, jako je dabování audiovizuálního materiálu a anonymizace hlasu (například pro ochranu svědků). Vzhledem k tomu, že může sloužit pro spoofing systémů identifikace hlasu, je také důležitým nástrojem pro vývoj detektorů spoofingu a protiopatření. Modely VC byly dříve trénovány převážně na paralelních (tj. dva řečníci čtou stejný text) a na vysoce kvalitních audio materiálech. Cílem této práce bylo prozkoumat vývoj VC na neparalelních datech a na signálech nízké kvality, zejména z veřejně dostupné databáze VoxCeleb. Práce vychází z moderní architektury AutoVC definované Qianem et al. Je založena na neurálních autoenkodérech, jejichž cílem je oddělit informace o obsahu a řečníkovi do samostatných nízkodimenzionýálních vektorových reprezentací (embeddingů). Cílová řeč se potom získá nahrazením embeddingu zdrojového řečníka embeddingem cílového řečníka. Qianova architektura byla vylepšena pro zpracování audio nízké kvality experimentováním s různými embeddingy řečníků (d-vektory vs. x-vektory), zavedením klasifikátoru řečníka z obsahových embeddingů v adversariálním schématu trénování neuronových sítí a laděním velikosti obsahového embeddingu tak, že jsme definovali informační bottle-neck v příslušné neuronové síti. Definovali jsme také další adversariální architekturu, která porovnává původní obsahové embeddingy s embeddingy získanými ze zkonvertované řeči. Výsledky experimentů prokazují, že neparalelní VC na nekvalitních datech je skutečně možná. Výsledná audia nebyla tak kvalitní případě hi fi vstupů, ale výsledky ověření řečníků po spoofingu výsledným systémem jasně ukázaly posun hlasových charakteristik směrem k cílovým řečníkům. | en |
dc.description.abstract | Voice conversion (VC) aims at converting the voice of source speaker to the voice of target speaker. It is popular in funny Internet videos but has also series of serious use cases, such as dubbing of audiovisual material and anonymization of voice (for example for witness protection). As it can serve for spoofing of voice identification systems, it is also an important tool for development spoofing detectors and counter-measures. Training VC models has mainly been on parallel audios (ie. two speakers uttering the same text) and on high quality audio material. The goal of this thesis was to investigate developing VC on non-parallel data and with low quality signals, mainly from publicly available dataset VoxCeleb. This work follows the state-of-the-art AutoVC architecture defined by Qian et al. It is based on neural network (NN) autoencoders, aiming to separate speech into content- and speaker-dependent embedding. The target speech is then obtained by replacing source speaker embedding by the target speaker one. We have improved Qian's architecture to process low-quality audio by experimenting with different speaker embeddings (d-vectors vs. x-vectors), introducing a speaker classifier from content embeddings in an adversarial setup, and tuning the size of content embeddings imposing an information bottleneck to the autoencoder. Also, we have defined another adversarial architecture by comparing original content embeddings with those obtained after the VC process. The results of experiments prove that non-parallel VC on low-quality data is indeed doable. The resulting audios were not so good as in case of using high-quality ones, but the speaker verification results after spoofing by proposed system have clearly shown a shift of voice characteristics toward the target speakers. | cs |
dc.description.mark | A | cs |
dc.identifier.citation | BRUKNER, J. Non-Parallel Voice Conversion [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020. | cs |
dc.identifier.other | 129254 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/192436 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | konverze hlasu | en |
dc.subject | zpracování řeči | en |
dc.subject | x-vektor | en |
dc.subject | d-vektor | en |
dc.subject | autoenkodér | en |
dc.subject | verifikace | en |
dc.subject | spoofing | en |
dc.subject | wavenet | en |
dc.subject | neuronové sítě | en |
dc.subject | voice conversion | cs |
dc.subject | speech processing | cs |
dc.subject | x-vector | cs |
dc.subject | d-vector | cs |
dc.subject | autoencoder | cs |
dc.subject | verification | cs |
dc.subject | spoofing | cs |
dc.subject | wavenet | cs |
dc.subject | neural networks | cs |
dc.title | Non-Parallel Voice Conversion | en |
dc.title.alternative | Non-Parallel Voice Conversion | cs |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2020-07-15 | cs |
dcterms.modified | 2020-07-17-14:42:11 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 129254 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 15:30:46 | en |
sync.item.modts | 2025.01.16 00:27:03 | en |
thesis.discipline | Počítačová grafika a multimédia | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 8.66 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-19207_v.pdf
- Size:
- 86.01 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-19207_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-19207_o.pdf
- Size:
- 88.11 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-19207_o.pdf
Loading...
- Name:
- review_129254.html
- Size:
- 1.42 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_129254.html