Tvorba nové deepfake datové sady
Loading...
Date
Authors
Sztolarik, Maroš
ORCID
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
V posledných rokoch deepfake technológia postúpila do bodu kedy je schopná uveriteľne napodobniť ľudský hlas, čím predstavuje významné výzvy v rozslišovaní medzi skutočnými a syntetickými hlasmi. V tejto práci predstavujeme novú dátovú sadu obsahujúcu deepfake reč generovanú pomocou difúznych modelov. Táto dátová sada, vytvorená s pomocou dvoch sofistikovaných nástrojov pre prevod textu na reč, DiffSpeech a ProDiff, mieri poskytnúť náhľad do hrozby tieto nové nástroje predstavujú. Dve ďaľšie dátové sady sú vytvorené s viac vyspelými nástrojmi pre poskytnutie bodu porovnania. Potom sú všetky vygenerované vzorky analyzované dvomi deepfake detektormi pre priame porovnanie akú veľkú hrozbu každý nástroj predstavuje. Výsledky ukazujú, že aj keď nástroje ktoré využívajú difúzne modely predstavujú hrozbu, použitie difúznych modelov neposkytlo týmto nástrojom nijakú významnú výhodu vo vyhýbaní sa detekcii.
In the recent years, deepfake technology has advanced to a point where it can convincingly mimic human speech, posing significant challenges in distinguishing between real and synthetic voices. In this thesis, we introduce a novel dataset comprising speech deepfakes generated using diffusion models. This dataset, created with two sophisticated text-to-speech tools, DiffSpeech and ProDiff, aims to provide insight into the threat that these new tools pose. Two more datasets are created with more mature tools, Glow-TTS and Tacotron2, to provide a point of comparison. Then all the generated samples are analyzed through two deepfake detectors in order to provide a direct comparison into how much of a threat each tool is to these detectors. The results show that even though the tools utilizing the diffusion models are threatening, the use of diffusion models did not provide these tools any meaningful advantage in evading the detection.
In the recent years, deepfake technology has advanced to a point where it can convincingly mimic human speech, posing significant challenges in distinguishing between real and synthetic voices. In this thesis, we introduce a novel dataset comprising speech deepfakes generated using diffusion models. This dataset, created with two sophisticated text-to-speech tools, DiffSpeech and ProDiff, aims to provide insight into the threat that these new tools pose. Two more datasets are created with more mature tools, Glow-TTS and Tacotron2, to provide a point of comparison. Then all the generated samples are analyzed through two deepfake detectors in order to provide a direct comparison into how much of a threat each tool is to these detectors. The results show that even though the tools utilizing the diffusion models are threatening, the use of diffusion models did not provide these tools any meaningful advantage in evading the detection.
Description
Citation
SZTOLARIK, M. Tvorba nové deepfake datové sady [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
doc. Dr. Ing. Otto Fučík (předseda)
Mgr. Kamil Malinka, Ph.D. (člen)
Ing. Vojtěch Mrázek, Ph.D. (člen)
Ing. Libor Polčák, Ph.D. (člen)
Ing. David Bařina, Ph.D. (člen)
Date of acceptance
2024-06-14
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení