Porovnání a analýza syntetizátorů řeči
Loading...
Date
Authors
Machala, Roman
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Práce se zabývá nejvíce používanými a nejznámějšími přístupy k syntéze řeči se zaměřením na moderní systémy pro převod textu na řeč. V práci jsou dále shrnuty datové sady používány pro trénování a adaptaci syntetizátorů řeči a metriky pro evaluaci syntetizovaného audia, jako je například Mean Opinion Score (MOS). Dále jsou studovány možnosti adaptace již existujících syntetizátorů na specifického mluvčího s omezeným množstvím dat. Je navrhnut evaluační systém pro evaluaci syntetizovaného audia s možností evaluace audií buďto intrusivní metodou, která vyžaduje referenční vzorky, nebo ne-intrusivní metodou vyžadující pouze syntetizované vzorky. Navrhnutý evaluační systém je využit pro evaluaci syntetizovaných audií z vybraných, veřejně dostupných a používaných systémů pro převod textu na řeč.
This thesis aims to analyze some of the most known speech synthesis approaches, focusing on current State-of-The-Art (SOTA) Text-to-Speech (TTS) systems. The thesis further summarizes datasets used to train or adapt speech synthesizers and audio evaluation metrics used to evaluate synthesized speech, such as Mean Opinion Score (MOS). The thesis further studies the adaptation of available TTS models to a specific speaker on a limited dataset. An evaluation system for synthesized speech is proposed, capable of evaluating generated samples either in non-intrusive, where no reference samples are needed, or in intrusive mode, which requires reference samples. The evaluation system is then used to evaluate the synthesized samples generated using some commonly known and utilized TTS systems.
This thesis aims to analyze some of the most known speech synthesis approaches, focusing on current State-of-The-Art (SOTA) Text-to-Speech (TTS) systems. The thesis further summarizes datasets used to train or adapt speech synthesizers and audio evaluation metrics used to evaluate synthesized speech, such as Mean Opinion Score (MOS). The thesis further studies the adaptation of available TTS models to a specific speaker on a limited dataset. An evaluation system for synthesized speech is proposed, capable of evaluating generated samples either in non-intrusive, where no reference samples are needed, or in intrusive mode, which requires reference samples. The evaluation system is then used to evaluate the synthesized samples generated using some commonly known and utilized TTS systems.
Description
Keywords
Syntéza řeči , Převod textu na řeč , Neuronové syntetizátory , Zero-shot syntéza , Adaptace řeči , Metriky pro evaluaci syntetizovaných audií , Objektivní evaluace , Subjektivní evaluace , datové sady pro řeč , Trénování TTS modelů , Speech synthesis , Text-to-Speech (TTS) , Neural TTS , Speech synthesizers , Zero-Shot synthesis , Voice adaptation , Synthesized audio evaluation metrics , Objective evaluation , Subjective evaluation , Speech datasets , TTS model training
Citation
MACHALA, R. Porovnání a analýza syntetizátorů řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
prof. Ing. Adam Herout, Ph.D. (předseda)
Dr. Ing. Petr Peringer (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Jaroslav Rozman, Ph.D. (člen)
Ing. Jiří Matoušek, Ph.D. (člen)
Date of acceptance
2025-06-18
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
