Vyhodnocení kvality a dostupnosti zdrojů lidské řeči pro tvorbu deepfakes

Loading...
Thumbnail Image
Date
Authors
Frič, Michal
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Hlasové deepfaky, posúvané rýchlym vývojom v oblasti umelej inteligencie a strojového učenia, predstavujú technológiu s dvojitým potenciálom, prinášajúcu významné prínosy aj riziká. Tieto syntetické hlasové výstupy sú čím ďalej, tým viac realistické, a to vďaka jednoduchému prístupu k rozsiahlym množstvám ľudskej reči z rôznych zdrojov. Táto práca skúma vhodnosť týchto zdrojov pre tvorbu hlasových deepfakov. Identifikovali sme a hodnotili sme viaceré zdroje reči a vypracovali sme metodológie na posudzovanie ich kvality, dostupnosti, diverzity a frekvencie aktualizácií obsahu. Hodnotenie zahŕňalo aj analýzu vplyvu charakteristík zdrojov na kvalitu deepfakov a efektívnosť detekcie softvérom aj ľudskými hodnotiteľmi. Zistenia ukazujú, že všetky identifikované zdroje sú schopné poskytnúť dostatočne kvalitné nahrávky pre vytvorenie kvalitných, často nerozpoznateľných deepfakov. Súčasne poukazujú na konkrétne silné a slabé stránky (merané vlastnosti) jednotlivých zdrojov. Pri testovaní bola objavená anomália v detekčnom softvéri, ktorá umožňuje upraviť deepfaky tak, aby sa vyhli detekcii. Navyše bolo zistené, že menej ako 10 sekúnd ľudskej reči môže stačiť na vytvorenie kvalitného deepfaku, pričom dĺžka a kvalita vstupných nahrávok sú priamo spojené s kvalitou deepfaku.
Voice deepfakes, powered by rapid advancements in artificial intelligence and machine learning, represent a dual-edge technology with significant benefits and risks. These synthetic voice outputs are increasingly realistic due to the easy access to vast amounts of digital speech data from various sources. This thesis analyses these sources’ suitability for creating convincing deepfakes. We identified and evaluated numerous speech sources and developed methodologies for assessing their quality, accessibility, diversity, and update frequency. The evaluation extended to analyzing the impact of source characteristics on deepfake quality and the effectiveness of detection by software and human evaluators. Findings indicate that all identified sources can provide sufficiently high-quality recordings to create high-quality deepfakes, often indistinguishable. Additionally, they highlight each source’s particular strengths and weaknesses (measured properties) grade. An anomaly in detection software was discovered, allowing deepfakes to be modified to evade detection. Furthermore, less than 10 seconds of human speech could suffice to create a high-quality deepfake, directly correlating the length and quality of input recordings to the fidelity of the output. The thesis concludes with a discussion of the risks associated with these sources and proposes measures for prevention and mitigation.
Description
Citation
FRIČ, M. Vyhodnocení kvality a dostupnosti zdrojů lidské řeči pro tvorbu deepfakes [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
doc. Dr. Ing. Otto Fučík (předseda) Mgr. Kamil Malinka, Ph.D. (člen) Ing. Vojtěch Mrázek, Ph.D. (člen) Ing. Libor Polčák, Ph.D. (člen) Ing. David Bařina, Ph.D. (člen)
Date of acceptance
2024-06-14
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO