Impact of Speaker Characteristics on the Performance of Deepfake Speech Detectors

Loading...
Thumbnail Image

Date

Authors

Srna, Karel

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato bakalářská práce se zaměřuje na problematiku hlasových deepfakes, generovaných zvukových nahrávek, které znějí, jako by je namluvili skuteční lidé. Cílem této práce je zjistit, zda demografické údaje mluvčího ovlivňují výkonnost systémů pro detekci deepfake řeči. V úvodu práce je představena technologie deepfake a taktéž klasifikace hlavních typů syntézy řeči. Práce se dále zabývá přehledem existujících datových sad pro skutečnou a falešnou řeč. Je poukázáno na jejich slabiny a je navržena nová datová sada obsahující anotace mluvčích, jako je pohlaví, jazyk, věk a úroveň vzdělání. Navržená datová sada obsahuje 237 250 nahrávek s celkovou délkou trvání více než 500 hodin, sestavených z řeči 50 mluvčích v pěti jazycích. Dataset je použit k vyhodnocení několika systémů pro detekci řeči. Získané výsledky jsou podrobně analyzovány – je uvedena výkonnost detektorů pro každou z charakteristik mluvčího a je statisticky vyhodnoceno, zda existuje nějaké zkreslení mezi demografickými podskupinami. Výsledky ukazují, že moderní detektory nejsou nezaujaté a že je třeba věnovat zvláštní pozornost trénování a nasazení spravedlivých a nediskriminačních detektorů deepfake řeči.
This thesis is focused on the issue of voice deepfakes, generated audio recordings sounding like uttered by real people. The motivation behind this work is to investigate whether speaker demographics influence the performance of deepfake speech detection systems. At the beginning, it is explained what deepfakes are, along with the main types of speech synthesis. Then follows a review of existing datasets for real and fake speech. Their weaknesses are pointed out, and a new dataset is proposed featuring speakers’ annotations like gender, language, age, and education. The dataset contains 237,250 utterances with a total duration of more than 500 hours, compiled from 50 speakers in five languages. It is used for evaluating multiple speech detection systems. The obtained results are analyzed in detail – the detectors’ performance is presented for each of the speaker’s characteristics, and it is statistically evaluated whether there exists some bias between demographic subgroups. The results show that modern detectors are not unbiased and special care should be taken for training and deploying fair and non-discriminative deepfake speech detectors.

Description

Citation

SRNA, K. Impact of Speaker Characteristics on the Performance of Deepfake Speech Detectors [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Informační technologie

Comittee

doc. Ing. Ondřej Ryšavý, Ph.D. (předseda) Ing. Tomáš Milet, Ph.D. (člen) Ing. Marcela Zachariášová, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) doc. RNDr. Dana Hliněná, Ph.D. (člen)

Date of acceptance

2025-06-18

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO