Reverzibilnost metod pro změnu hlasu
Loading...
Date
Authors
Lička, Zbyněk
ORCID
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Moderní metody pro změnu hlasu dovolují i nezkušeným uživatelům vytvářet přesvědčívé nahrávky hlasu slavné osoby s pouze pár sekundami nahraného ukázkového hlasu. Existují dvě hlavní kategorie metod pro změnu hlasu: konverze hlasu a text-to-speech. Metody konverze hlasu vyžadují vstupní řeč, která má být konvertována do hlasu jiného řečníka. Moderní metody pro konverzi hlasu se často zabývají odstraněním či redukcí množství informací o původním řečníkovi v konvertovaném hlasu. Tato práce se zabývá možnostmi pro extrakci informací z konvertovaného hlasu s případnou kompletní rekonstrukcí vstupní řeči. Výsledky této práce odhalují poznatky o nestudované vlastnosti těchto metod.
State-of-the-art voice-changing methods allow inexperienced users to create convincing voice recordings of famous individuals with just a few seconds of recorded speech. There are two major approaches to voice generation: voice conversion and text-to-speech. Voice conversion methods require the user to input source speech to be converted to the target voice. A trend with voice conversion methods, especially those requiring only mere seconds of reference speech, has been restricting the amount of information about the original speaker in the converted speech. This work focuses on studying the amount of information extractable about the original speaker from artificial speech and potentially reconstructing the original speech. The results of this work shed light on an unstudied property of voice-changing methods.
State-of-the-art voice-changing methods allow inexperienced users to create convincing voice recordings of famous individuals with just a few seconds of recorded speech. There are two major approaches to voice generation: voice conversion and text-to-speech. Voice conversion methods require the user to input source speech to be converted to the target voice. A trend with voice conversion methods, especially those requiring only mere seconds of reference speech, has been restricting the amount of information about the original speaker in the converted speech. This work focuses on studying the amount of information extractable about the original speaker from artificial speech and potentially reconstructing the original speech. The results of this work shed light on an unstudied property of voice-changing methods.
Description
Keywords
neuronové sítě, konverze hlasu, text-to-speech, VC, TTS, inverzní neuronové sítě, inverze modelu, klasifikace, změna hlasu, reverzibilnost, rekonstrukce vstupu, neural networks, voice conversion, text-to-speech, VC, TTS, inverse networks, model inversion, classification, voice changing, reversibility, input reconstruction
Citation
LIČKA, Z. Reverzibilnost metod pro změnu hlasu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Kybernetická bezpečnost
Comittee
doc. Dr. Ing. Petr Hanáček (předseda)
doc. Ing. Michal Bidlo, Ph.D. (člen)
doc. Mgr. Adam Rogalewicz, Ph.D. (člen)
doc. Ing. Petr Matoušek, Ph.D., M.A. (člen)
Mgr. Kamil Malinka, Ph.D. (člen)
Ing. Vladimír Veselý, Ph.D. (člen)
Date of acceptance
2024-06-17
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně množství prozkoumaných metod, charakteru datových sad, počtu řečníků v datových sadách, potřebné délky nahrávek hlasů a typu použitého hardwarového vybavení. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení