Personalizace systémů syntézy hlasu

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Zdeněk Vašíček, Ph.D. (člen) Ing. Václav Šátek, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBrukner, Janen
dc.contributor.authorLuner, Michalen
dc.contributor.refereeČernocký, Janen
dc.date.created2023cs
dc.description.abstractTato práce si klade za cíl vytvořit model, který dokáže převést vstupní text na řeč cílového mluvčího. Základním stavebním kamenem je VITS model. Postup byl následující: získal se obecný český dataset, na kterém se natrénoval model neuronové sítě, jenž se poté využil pro generování audio nahrávek, které se vyhodnocovaly pomocí objektivních metrik. Následně se vytvořil personalizovaný dataset, na kterém se provedl fine-tuning modelu získaného v předchozím kroku. Opět se provedlo vyhodnocení kvality nahrávek. Výsledkem jsou dva personalizované modely. Model mužského mluvčího dosáhl v poslechových testech skóre 4.12/5 (MOS), model ženské mluvčí pak 3.02/5. Výsledky sub\-jektivních i objektivních metrik ukázaly, že postupem zvoleným v této práci je možné vyvinout model, který se svou kvalitou generovaných nahrávek blíží skutečné řeči. Přínosem této práce je, kromě personalizovaných modelů, i vytvoření vyhodnocovacího systému zpracování dat, které je možno uzpůsobit k evaluaci audio nahrávek z jiných mo\-de\-lů. Práce popisuje i způsob tvorby nového datasetu, který se může využít při tvorbě dalšího jiného datasetu v libovolném jazyce.en
dc.description.abstractThis thesis aims to develop a model that can convert input text written in Czech into speech that closely resembles a target speaker. This work is based on the VITS text-to-speech neural network model. The workflow is as follows: a Czech dataset is acquired, the neural network is trained, the trained model is then used to generate audio samples, which are evaluated using several objective metrics. A personalized dataset is developed and used to fine-tune the model, and the evaluation process is repeated. As a result, two fine-tuned models were developed. The male model achieved a~MOS of 4.12, and the female model achieved a~score of 3.02. The scores prove that a base model fine-tuned using a personalized dataset can achieve results close to the original audio. The contribution of this thesis is, apart from the personalized models, the pipeline for audio evaluation and dataset development, which can be easily adjusted for tasks on different data. In addition, a detailed analysis of best practices applied during the development of new datasets is provided.cs
dc.description.markAcs
dc.identifier.citationLUNER, M. Personalizace systémů syntézy hlasu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.cs
dc.identifier.other145045cs
dc.identifier.urihttp://hdl.handle.net/11012/212705
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectzpracování hlasuen
dc.subjectsignályen
dc.subjectneuronové sítěen
dc.subjectčeské text-to-speech systémyen
dc.subjecttvorba datasetůen
dc.subjectmetriky vyhodnocení audiaen
dc.subjectladění modeluen
dc.subjectspeech processingcs
dc.subjectsignalscs
dc.subjectneural networkscs
dc.subjectCzech text-to-speechcs
dc.subjectdataset developmentcs
dc.subjectaudio evaluation metricscs
dc.subjectfine-tuningcs
dc.titlePersonalizace systémů syntézy hlasuen
dc.title.alternativeText-to-Speech Personalizationcs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2023-06-15cs
dcterms.modified2023-06-15-16:13:28cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid145045en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 21:00:01en
sync.item.modts2025.01.17 13:22:43en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
7.03 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_145045.html
Size:
9.53 KB
Format:
Hypertext Markup Language
Description:
file review_145045.html
Collections