Vícejazyčná datová sada hlasových deepfakes

Trnovská, Eva

Vícejazyčná datová sada hlasových deepfakes

Files

final-thesis.pdf (1.38 MB)

review_154478.html (10.53 KB)

Authors

Trnovská, Eva

Advisor

Malinka, Kamil

Referee

Reš, Jakub

Mark

A

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato práce se zabývá oblastí hlasových deepfakes: jejich vytvářením a detekcí. Popisuje aktuální stav výzkumu v této oblasti a metody pro vytváření falešných nahrávek. Dále poskytuje širší analýzu dostupných datových sad obsahující hlasové deepfakes, na jejímž základě je navržena a vytvořena nová vícejazyčná datová sada. Tato sada má za cíl umožnit další výzkum v oblasti zobecňování detekce deepfakes napříč jazyky a rozdílech v přesnosti detekce mužského a ženského hlasu. Výsledky experimetů ukazují, že u testovaných modelů je možné nahrazení detektorů trénovaných pro detekci v jediném jazyce detektory, jež jsou natrénované na vícejazyčné sadě, a to se ztrátou přesnosti v jednotkách procent. Testované modely byly obecně přesnější při detekci nahrávek s ženskými hlasy, ovšem tato vlastnost se neprokázala u všech testovaných detektorů.
This thesis examines the area of voice deepfakes: their creation and detection. It describes the state of current research and the methods of creating fake recordings. Furthermore, it provides a comprehensive analysis of available voice deepfake datasets, based on which a new multilingual dataset is designed and compiled. The dataset aims to enable further research on the generalization of deepfake detection across languages and the differences in the accuracy of male and female voice detection. The results of the experiments show that for the models tested, it is possible to replace detectors trained to detect in a single language with detectors trained on a multilingual set, with an accuracy loss of a few percent. The tested models were generally more accurate in detecting recordings with female voices, but this property was not demonstrated for all tested detectors.

Keywords

hlasové deepfakes , detekce deepfakes , převod textu na řeč , konverze hlasu , vícejazyčná datová sada , analýza datasetů , voice deepfakes , deepfake detection , text-to-speech , voice conversion , multilingual dataset , dataset analysis

Citation

TRNOVSKÁ, E. Vícejazyčná datová sada hlasových deepfakes [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.

Language of document

en

Study field

Informační technologie

Comittee

doc. Ing. Radek Burget, Ph.D. (předseda) doc. Ing. Petr Motlíček, Ph.D. (člen) doc. Ing. Petr Matoušek, Ph.D., M.A. (člen) Mgr. Kamil Malinka, Ph.D. (člen) Ing. Bohuslav Křena, Ph.D. (člen)

Date of acceptance

2024-08-21

Defence

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/249403

Collections

2024

Citace PRO

Full item page

Vícejazyčná datová sada hlasových deepfakes

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO