Impact of Speaker Characteristics on the Performance of Deepfake Speech Detectors

Srna, Karel

Impact of Speaker Characteristics on the Performance of Deepfake Speech Detectors

Files

final-thesis.pdf (1.42 MB)

review_165219.html (11.93 KB)

Authors

Srna, Karel

Advisor

Staněk, Vojtěch

Referee

Zhang, Lin

Mark

A

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato bakalářská práce se zaměřuje na problematiku hlasových deepfakes, generovaných zvukových nahrávek, které znějí, jako by je namluvili skuteční lidé. Cílem této práce je zjistit, zda demografické údaje mluvčího ovlivňují výkonnost systémů pro detekci deepfake řeči. V úvodu práce je představena technologie deepfake a taktéž klasifikace hlavních typů syntézy řeči. Práce se dále zabývá přehledem existujících datových sad pro skutečnou a falešnou řeč. Je poukázáno na jejich slabiny a je navržena nová datová sada obsahující anotace mluvčích, jako je pohlaví, jazyk, věk a úroveň vzdělání. Navržená datová sada obsahuje 237 250 nahrávek s celkovou délkou trvání více než 500 hodin, sestavených z řeči 50 mluvčích v pěti jazycích. Dataset je použit k vyhodnocení několika systémů pro detekci řeči. Získané výsledky jsou podrobně analyzovány – je uvedena výkonnost detektorů pro každou z charakteristik mluvčího a je statisticky vyhodnoceno, zda existuje nějaké zkreslení mezi demografickými podskupinami. Výsledky ukazují, že moderní detektory nejsou nezaujaté a že je třeba věnovat zvláštní pozornost trénování a nasazení spravedlivých a nediskriminačních detektorů deepfake řeči.
This thesis is focused on the issue of voice deepfakes, generated audio recordings sounding like uttered by real people. The motivation behind this work is to investigate whether speaker demographics influence the performance of deepfake speech detection systems. At the beginning, it is explained what deepfakes are, along with the main types of speech synthesis. Then follows a review of existing datasets for real and fake speech. Their weaknesses are pointed out, and a new dataset is proposed featuring speakers’ annotations like gender, language, age, and education. The dataset contains 237,250 utterances with a total duration of more than 500 hours, compiled from 50 speakers in five languages. It is used for evaluating multiple speech detection systems. The obtained results are analyzed in detail – the detectors’ performance is presented for each of the speaker’s characteristics, and it is statistically evaluated whether there exists some bias between demographic subgroups. The results show that modern detectors are not unbiased and special care should be taken for training and deploying fair and non-discriminative deepfake speech detectors.

Keywords

Deepfake , Syntetická řeč , Datová sada , Diskriminace & bias , Detekce deepfake , Deepfake , Synthetic speech , Dataset , Bias & fairness , Deepfake Detection

Citation

SRNA, K. Impact of Speaker Characteristics on the Performance of Deepfake Speech Detectors [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

en

Study field

Informační technologie

Comittee

doc. Ing. Ondřej Ryšavý, Ph.D. (předseda) Ing. Tomáš Milet, Ph.D. (člen) Ing. Marcela Zachariášová, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) doc. RNDr. Dana Hliněná, Ph.D. (člen)

Date of acceptance

2025-06-18

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/253755

Collections

2025

Citace PRO

Full item page

Impact of Speaker Characteristics on the Performance of Deepfake Speech Detectors

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO