Odhad obličeje z řečového signálu

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Jak moc je Vaše mapovací NN náchylná k přetrénování? S jakými nároky (i časovými) je potřeba počítat při trénování modelů pro aplikaci a jak dlouho trvá testovací fáze pro jednoho mluvčího? Kdybyste pracoval na této práci ještě rok, co by byly další kroky, kterými byste zlepšil systém?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorPlchot, Oldřichcs
dc.contributor.authorKrušina, Josefcs
dc.contributor.refereeMatějka, Pavelcs
dc.date.created2022cs
dc.description.abstractTato práce řeší problém mapování fixních reprezentací (embeddingů) řečového signálu na embeddingy obličejů a následné generování obličeje z namapovaného embeddingu pomocí generativní adverzní sítě (GAN) naučené na generování obličejů. GAN jsou druhem neuronových sítí, které umí generovat data podobná těm, na kterých se trénovala. Architektura navrženého systému je založena na čtyřech komponentách: na extraktoru embeddingů obličeje, na extraktoru embeddingů hlasu, na algoritmu nad GAN, který umí generovat obličej z embeddingu obličeje a na mnou implementované mapovací síti určené k mapování embeddingu hlasu na embedding obličeje. Jako extraktory embeddingů jsou převzaty předtrénované neuronové sítě FaceNet a SpeechBrain. Pro zpětné generování obličeje je převzatý model používající předtrénovaný StyleGAN2. Přínos této práce je ten, že dovoluje extrapolovat obličej pouze z audio signálu.cs
dc.description.abstractThis work addresses the problem of mapping fixed representations (embeddings) of a speech signal to face embeddings and then generating a face from the mapped embedding using a generative adversarial network (GAN) that was trained for face generation. GANs are a type of neural networks that can generate data similar to the data they were trained on. The architecture of the proposed system is based on four components: a face embedding extractor, a voice embedding extractor, an algorithm on top of a GAN that can generate a face from a face embedding, and my mapping network used to map a voice embedding to a face embedding. The pre-trained neural networks FaceNet and SpeechBrain are adopted as embedding extractors. A model that uses a pre-trained StyleGAN2 is adopted for backward face generation. The contribution of this work is that it allows the extrapolation of a face from audio signal only.en
dc.description.markCcs
dc.identifier.citationKRUŠINA, J. Odhad obličeje z řečového signálu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.cs
dc.identifier.other145225cs
dc.identifier.urihttp://hdl.handle.net/11012/207352
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectExtrakce příznakůcs
dc.subjectMapovánícs
dc.subjectEmbeddingcs
dc.subjectFaceNetcs
dc.subjectSpeechBraincs
dc.subjectStyleGAN2cs
dc.subjectFeature extractionen
dc.subjectMappingen
dc.subjectEmbeddingen
dc.subjectFaceNeten
dc.subjectSpeechBrainen
dc.subjectStyleGAN2en
dc.titleOdhad obličeje z řečového signálucs
dc.title.alternativeLearning the Face Behind a Voiceen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2022-06-15cs
dcterms.modified2022-06-20-10:23:03cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid145225en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:42:00en
sync.item.modts2025.01.17 11:51:52en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
7.19 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-24895_v.pdf
Size:
85.84 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-24895_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-24895_o.pdf
Size:
97.24 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-24895_o.pdf
Loading...
Thumbnail Image
Name:
review_145225.html
Size:
1.43 KB
Format:
Hypertext Markup Language
Description:
file review_145225.html
Collections