Metody tvorby hlasových deepfakes v reálném čase
Loading...
Date
Authors
Alakaev, Kambulat
ORCID
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato práce zkoumá možnosti generování hlasových deepfake v reálném čase pomocí nástrojů s otevřeným zdrojovým kódem. Experimenty bylo zjištěno, že rychlost generování hlasových deepfakes je ovlivněna výpočetním výkonem zařízení, na kterých jsou nástroje pro tvorbu řeči spuštěny. Byl identifikován model hlubokého učení, který je schopen generovat řeč téměř v reálném čase. Omezení nástroje obsahujícího tento model však bránila kontinuálnímu zadávání vstupních dat pro generování v reálném čase. K řešení tohoto problému byl vyvinut program, který tato omezení překonává. Kvalita generovaných deepfakes byla hodnocena jak pomocí modelů pro detekci hlasových deepfake, tak pomocí online průzkumů na lidech. Výsledky ukázaly, že zatímco model dokázal oklamat detekční modely, nebyl úspěšný při oklamání lidí. Tento výzkum upozorňuje na dostupnost nástrojů pro syntézu hlasu s otevřeným zdrojovým kódem a na možnost jejich zneužití jednotlivci k podvodným účelům.
This thesis explores the possibility of achieving real-time voice deepfake generation using open-source tools. Through experiments, it was discovered that the generation rate of voice deepfakes is affected by the computing power of the devices running the speech creation tools. A deep learning model was identified to be capable of generating speech in near real time. However, limitations in the tool containing this model prevented continuous input data for real-time generation. To address this, a program was developed to overcome these limitations. The quality of the generated deepfakes was evaluated using both voice deepfake detection models and human online surveys. The results revealed that while the model could deceive detection models, it was not successful in fooling humans. This research highlights the accessibility of open-source voice synthesis tools and the potential for their misuse by individuals for fraudulent purposes.
This thesis explores the possibility of achieving real-time voice deepfake generation using open-source tools. Through experiments, it was discovered that the generation rate of voice deepfakes is affected by the computing power of the devices running the speech creation tools. A deep learning model was identified to be capable of generating speech in near real time. However, limitations in the tool containing this model prevented continuous input data for real-time generation. To address this, a program was developed to overcome these limitations. The quality of the generated deepfakes was evaluated using both voice deepfake detection models and human online surveys. The results revealed that while the model could deceive detection models, it was not successful in fooling humans. This research highlights the accessibility of open-source voice synthesis tools and the potential for their misuse by individuals for fraudulent purposes.
Description
Keywords
deepfakes, hlasové deepfakes, biometrické systémy, syntéza hlasu v reálném čase, syntetická řeč, hluboké učení, kybernetická bezpečnost, převod textu na řeč, konverze hlasu, open-source deepfake nástroje, detekce hlasového deepfake, deepfakes, voice deepfakes, biometric systems, realtime voice synthesis, synthetic speech, deep learning, cybersecurity, text-to-speech, voice conversion, open-source deepfake tools, voice deepfake detection
Citation
ALAKAEV, K. Metody tvorby hlasových deepfakes v reálném čase [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
doc. Ing. Ondřej Ryšavý, Ph.D. (předseda)
Ing. Tomáš Milet, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Filip Orság, Ph.D. (člen)
Date of acceptance
2024-06-12
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. (Jaké jsou problémy s fungováním v reálném čase.)
Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení