Pair dataset for evaluating differential-based deepfake speech detector

Loading...
Thumbnail Image

Date

Authors

Prokeš, Lukáš

Mark

B

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce se zabývá rostoucí výzvou v oblasti detekce deepfake řeči prostřednictvím návrhu datové sady přizpůsobené diferenčním detekčním metodám, které porovnávají testovanou nahrávku s důvěryhodnou referenční nahrávkou téhož řečníka. Hlavním cílem je zjistit, zda použití párových nahrávek se shodným mluveným obsahem zlepšuje výkonnost detekce. Za tímto účelem byla vytvořena párová datová sada obsahující více než 100 000 nahrávek ve čtyřech jazycích od téměř 200 řečníků. Každá falešná nahrávka je spárována s reálnou nahrávkou téhož řečníka se stejným mluveným obsahem. Bylo vyhodnoceno několik detekčních systémů, včetně konvenčních modelů s jedním vstupem a diferenčních modelů. Výsledky ukazují, že diferenční detekce obecně překonává jednovstupové přístupy, zatímco shoda obsahu vede pouze k mírnému zlepšení, což naznačuje, že diferenční modely dobře generalizují i na nahrávkách s rozdílným mluveným obsahem stejného řečníka.
This thesis addresses the growing challenge of detecting speech deepfakes by proposing a dataset tailored to differential detection methods, which compare a test utterance with a trusted reference from the same speaker. The main objective is to determine whether using reference–test pairs with identical spoken content improves detection performance. To support this, a pair dataset was created, containing over 100,000 utterances across four languages and nearly 200 speakers. Each fake sample is paired with a real utterance from the same speaker and with identical spoken content. Several detection systems, including both traditional single-input and differential models, were evaluated. Results show that differential detection generally outperforms single-input baselines, while content alignment leads to only a modest improvement, indicating that differential models generalize well across utterances with different spoken content from the same speaker.

Description

Citation

PROKEŠ, L. Pair dataset for evaluating differential-based deepfake speech detector [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Informační technologie

Comittee

doc. Ing. Petr Matoušek, Ph.D., M.A. (předseda) Ing. Bohuslav Křena, Ph.D. (člen) Ing. Jan Pluskal, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) Ing. Jiří Matoušek, Ph.D. (člen)

Date of acceptance

2025-06-19

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO