Personalizace systémů syntézy hlasu

Luner, Michal

Personalizace systémů syntézy hlasu

but.committee	prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Zdeněk Vašíček, Ph.D. (člen) Ing. Václav Šátek, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.	cs
but.jazyk	angličtina (English)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Brukner, Jan	en
dc.contributor.author	Luner, Michal	en
dc.contributor.referee	Černocký, Jan	en
dc.date.created	2023	cs
dc.description.abstract	Tato práce si klade za cíl vytvořit model, který dokáže převést vstupní text na řeč cílového mluvčího. Základním stavebním kamenem je VITS model. Postup byl následující: získal se obecný český dataset, na kterém se natrénoval model neuronové sítě, jenž se poté využil pro generování audio nahrávek, které se vyhodnocovaly pomocí objektivních metrik. Následně se vytvořil personalizovaný dataset, na kterém se provedl fine-tuning modelu získaného v předchozím kroku. Opět se provedlo vyhodnocení kvality nahrávek. Výsledkem jsou dva personalizované modely. Model mužského mluvčího dosáhl v poslechových testech skóre 4.12/5 (MOS), model ženské mluvčí pak 3.02/5. Výsledky sub\-jektivních i objektivních metrik ukázaly, že postupem zvoleným v této práci je možné vyvinout model, který se svou kvalitou generovaných nahrávek blíží skutečné řeči. Přínosem této práce je, kromě personalizovaných modelů, i vytvoření vyhodnocovacího systému zpracování dat, které je možno uzpůsobit k evaluaci audio nahrávek z jiných mo\-de\-lů. Práce popisuje i způsob tvorby nového datasetu, který se může využít při tvorbě dalšího jiného datasetu v libovolném jazyce.	en
dc.description.abstract	This thesis aims to develop a model that can convert input text written in Czech into speech that closely resembles a target speaker. This work is based on the VITS text-to-speech neural network model. The workflow is as follows: a Czech dataset is acquired, the neural network is trained, the trained model is then used to generate audio samples, which are evaluated using several objective metrics. A personalized dataset is developed and used to fine-tune the model, and the evaluation process is repeated. As a result, two fine-tuned models were developed. The male model achieved a~MOS of 4.12, and the female model achieved a~score of 3.02. The scores prove that a base model fine-tuned using a personalized dataset can achieve results close to the original audio. The contribution of this thesis is, apart from the personalized models, the pipeline for audio evaluation and dataset development, which can be easily adjusted for tasks on different data. In addition, a detailed analysis of best practices applied during the development of new datasets is provided.	cs
dc.description.mark	A	cs
dc.identifier.citation	LUNER, M. Personalizace systémů syntézy hlasu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.	cs
dc.identifier.other	145045	cs
dc.identifier.uri	http://hdl.handle.net/11012/212705
dc.language.iso	en	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	zpracování hlasu	en
dc.subject	signály	en
dc.subject	neuronové sítě	en
dc.subject	české text-to-speech systémy	en
dc.subject	tvorba datasetů	en
dc.subject	metriky vyhodnocení audia	en
dc.subject	ladění modelu	en
dc.subject	speech processing	cs
dc.subject	signals	cs
dc.subject	neural networks	cs
dc.subject	Czech text-to-speech	cs
dc.subject	dataset development	cs
dc.subject	audio evaluation metrics	cs
dc.subject	fine-tuning	cs
dc.title	Personalizace systémů syntézy hlasu	en
dc.title.alternative	Text-to-Speech Personalization	cs
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2023-06-15	cs
dcterms.modified	2023-06-15-16:13:28	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	145045	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.18 21:00:01	en
sync.item.modts	2025.01.17 13:22:43	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Files

Original bundle

Now showing 1 - 2 of 2

Name:: final-thesis.pdf
Size:: 7.03 MB
Format:: Adobe Portable Document Format
Description:: final-thesis.pdf

Download

Name:: review_145045.html
Size:: 9.53 KB
Format:: Hypertext Markup Language
Description:: file review_145045.html

Download

Collections

2023