Impact of Speaker Characteristics on the Performance of Deepfake Speech Detectors

but.committeedoc. Ing. Ondřej Ryšavý, Ph.D. (předseda) Ing. Tomáš Milet, Ph.D. (člen) Ing. Marcela Zachariášová, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) doc. RNDr. Dana Hliněná, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorStaněk, Vojtěchen
dc.contributor.authorSrna, Karelen
dc.contributor.refereeZhang, Linen
dc.date.created2025cs
dc.description.abstractTato bakalářská práce se zaměřuje na problematiku hlasových deepfakes, generovaných zvukových nahrávek, které znějí, jako by je namluvili skuteční lidé. Cílem této práce je zjistit, zda demografické údaje mluvčího ovlivňují výkonnost systémů pro detekci deepfake řeči. V úvodu práce je představena technologie deepfake a taktéž klasifikace hlavních typů syntézy řeči. Práce se dále zabývá přehledem existujících datových sad pro skutečnou a falešnou řeč. Je poukázáno na jejich slabiny a je navržena nová datová sada obsahující anotace mluvčích, jako je pohlaví, jazyk, věk a úroveň vzdělání. Navržená datová sada obsahuje 237 250 nahrávek s celkovou délkou trvání více než 500 hodin, sestavených z řeči 50 mluvčích v pěti jazycích. Dataset je použit k vyhodnocení několika systémů pro detekci řeči. Získané výsledky jsou podrobně analyzovány – je uvedena výkonnost detektorů pro každou z charakteristik mluvčího a je statisticky vyhodnoceno, zda existuje nějaké zkreslení mezi demografickými podskupinami. Výsledky ukazují, že moderní detektory nejsou nezaujaté a že je třeba věnovat zvláštní pozornost trénování a nasazení spravedlivých a nediskriminačních detektorů deepfake řeči.en
dc.description.abstractThis thesis is focused on the issue of voice deepfakes, generated audio recordings sounding like uttered by real people. The motivation behind this work is to investigate whether speaker demographics influence the performance of deepfake speech detection systems. At the beginning, it is explained what deepfakes are, along with the main types of speech synthesis. Then follows a review of existing datasets for real and fake speech. Their weaknesses are pointed out, and a new dataset is proposed featuring speakers’ annotations like gender, language, age, and education. The dataset contains 237,250 utterances with a total duration of more than 500 hours, compiled from 50 speakers in five languages. It is used for evaluating multiple speech detection systems. The obtained results are analyzed in detail – the detectors’ performance is presented for each of the speaker’s characteristics, and it is statistically evaluated whether there exists some bias between demographic subgroups. The results show that modern detectors are not unbiased and special care should be taken for training and deploying fair and non-discriminative deepfake speech detectors.cs
dc.description.markAcs
dc.identifier.citationSRNA, K. Impact of Speaker Characteristics on the Performance of Deepfake Speech Detectors [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other165219cs
dc.identifier.urihttp://hdl.handle.net/11012/253755
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectDeepfakeen
dc.subjectSyntetická řečen
dc.subjectDatová sadaen
dc.subjectDiskriminace & biasen
dc.subjectDetekce deepfakeen
dc.subjectDeepfakecs
dc.subjectSynthetic speechcs
dc.subjectDatasetcs
dc.subjectBias & fairnesscs
dc.subjectDeepfake Detectioncs
dc.titleImpact of Speaker Characteristics on the Performance of Deepfake Speech Detectorsen
dc.title.alternativeImpact of Speaker Characteristics on the Performance of Deepfake Speech Detectorscs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2025-06-18cs
dcterms.modified2025-06-18-17:21:51cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid165219en
sync.item.dbtypeZPen
sync.item.insts2025.08.26 23:58:22en
sync.item.modts2025.08.26 19:42:23en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav inteligentních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.42 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_165219.html
Size:
11.93 KB
Format:
Hypertext Markup Language
Description:
file review_165219.html

Collections