Impact of Speaker Characteristics on the Performance of Deepfake Speech Detectors
Loading...
Date
Authors
Srna, Karel
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato bakalářská práce se zaměřuje na problematiku hlasových deepfakes, generovaných zvukových nahrávek, které znějí, jako by je namluvili skuteční lidé. Cílem této práce je zjistit, zda demografické údaje mluvčího ovlivňují výkonnost systémů pro detekci deepfake řeči. V úvodu práce je představena technologie deepfake a taktéž klasifikace hlavních typů syntézy řeči. Práce se dále zabývá přehledem existujících datových sad pro skutečnou a falešnou řeč. Je poukázáno na jejich slabiny a je navržena nová datová sada obsahující anotace mluvčích, jako je pohlaví, jazyk, věk a úroveň vzdělání. Navržená datová sada obsahuje 237 250 nahrávek s celkovou délkou trvání více než 500 hodin, sestavených z řeči 50 mluvčích v pěti jazycích. Dataset je použit k vyhodnocení několika systémů pro detekci řeči. Získané výsledky jsou podrobně analyzovány – je uvedena výkonnost detektorů pro každou z charakteristik mluvčího a je statisticky vyhodnoceno, zda existuje nějaké zkreslení mezi demografickými podskupinami. Výsledky ukazují, že moderní detektory nejsou nezaujaté a že je třeba věnovat zvláštní pozornost trénování a nasazení spravedlivých a nediskriminačních detektorů deepfake řeči.
This thesis is focused on the issue of voice deepfakes, generated audio recordings sounding like uttered by real people. The motivation behind this work is to investigate whether speaker demographics influence the performance of deepfake speech detection systems. At the beginning, it is explained what deepfakes are, along with the main types of speech synthesis. Then follows a review of existing datasets for real and fake speech. Their weaknesses are pointed out, and a new dataset is proposed featuring speakers’ annotations like gender, language, age, and education. The dataset contains 237,250 utterances with a total duration of more than 500 hours, compiled from 50 speakers in five languages. It is used for evaluating multiple speech detection systems. The obtained results are analyzed in detail – the detectors’ performance is presented for each of the speaker’s characteristics, and it is statistically evaluated whether there exists some bias between demographic subgroups. The results show that modern detectors are not unbiased and special care should be taken for training and deploying fair and non-discriminative deepfake speech detectors.
This thesis is focused on the issue of voice deepfakes, generated audio recordings sounding like uttered by real people. The motivation behind this work is to investigate whether speaker demographics influence the performance of deepfake speech detection systems. At the beginning, it is explained what deepfakes are, along with the main types of speech synthesis. Then follows a review of existing datasets for real and fake speech. Their weaknesses are pointed out, and a new dataset is proposed featuring speakers’ annotations like gender, language, age, and education. The dataset contains 237,250 utterances with a total duration of more than 500 hours, compiled from 50 speakers in five languages. It is used for evaluating multiple speech detection systems. The obtained results are analyzed in detail – the detectors’ performance is presented for each of the speaker’s characteristics, and it is statistically evaluated whether there exists some bias between demographic subgroups. The results show that modern detectors are not unbiased and special care should be taken for training and deploying fair and non-discriminative deepfake speech detectors.
Description
Keywords
Citation
SRNA, K. Impact of Speaker Characteristics on the Performance of Deepfake Speech Detectors [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
doc. Ing. Ondřej Ryšavý, Ph.D. (předseda)
Ing. Tomáš Milet, Ph.D. (člen)
Ing. Marcela Zachariášová, Ph.D. (člen)
Ing. Filip Orság, Ph.D. (člen)
doc. RNDr. Dana Hliněná, Ph.D. (člen)
Date of acceptance
2025-06-18
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
