Porovnání a analýza syntetizátorů řeči

Machala, Roman

Porovnání a analýza syntetizátorů řeči

Files

final-thesis.pdf (1.59 MB)

review_161248.html (9.72 KB)

Authors

Machala, Roman

Advisor

Plchot, Oldřich

Referee

Brukner, Jan

Mark

B

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Práce se zabývá nejvíce používanými a nejznámějšími přístupy k syntéze řeči se zaměřením na moderní systémy pro převod textu na řeč. V práci jsou dále shrnuty datové sady používány pro trénování a adaptaci syntetizátorů řeči a metriky pro evaluaci syntetizovaného audia, jako je například Mean Opinion Score (MOS). Dále jsou studovány možnosti adaptace již existujících syntetizátorů na specifického mluvčího s omezeným množstvím dat. Je navrhnut evaluační systém pro evaluaci syntetizovaného audia s možností evaluace audií buďto intrusivní metodou, která vyžaduje referenční vzorky, nebo ne-intrusivní metodou vyžadující pouze syntetizované vzorky. Navrhnutý evaluační systém je využit pro evaluaci syntetizovaných audií z vybraných, veřejně dostupných a používaných systémů pro převod textu na řeč.
This thesis aims to analyze some of the most known speech synthesis approaches, focusing on current State-of-The-Art (SOTA) Text-to-Speech (TTS) systems. The thesis further summarizes datasets used to train or adapt speech synthesizers and audio evaluation metrics used to evaluate synthesized speech, such as Mean Opinion Score (MOS). The thesis further studies the adaptation of available TTS models to a specific speaker on a limited dataset. An evaluation system for synthesized speech is proposed, capable of evaluating generated samples either in non-intrusive, where no reference samples are needed, or in intrusive mode, which requires reference samples. The evaluation system is then used to evaluate the synthesized samples generated using some commonly known and utilized TTS systems.

Citation

MACHALA, R. Porovnání a analýza syntetizátorů řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

en

Study field

Informační technologie

Comittee

prof. Ing. Adam Herout, Ph.D. (předseda) Dr. Ing. Petr Peringer (člen) Ing. Matěj Grégr, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. Jiří Matoušek, Ph.D. (člen)

Date of acceptance

2025-06-18

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/253688

Collections

2025

Citace PRO

Full item page

Porovnání a analýza syntetizátorů řeči

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO