Odhad obličeje z řečového signálu
Loading...
Date
Authors
ORCID
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Hlavním cílem této diplomové práce bylo navrhnout a implementovat systém, který bude schopný odhadnout obličej na základě řeči daného člověka. Tento problém je vyřešen pomocí systému složeného ze tří modelů konvolučních neuronových sítí. První z nich je založen na architektuře ResNet a slouží pro extrahování příznaků z hlasových nahrávek. Druhým modelem je plně konvoluční neuronová síť, která převádí tyto příznaky na styly, na základě kterých bude upravován výsledný obrázek obličeje. Získané styly jsou poté předávány na vstup generátoru StyleGAN pro vygenerování výsledného obličeje. Navržený systém je implementován v programovacím jazyce Python s využitím frameworku PyTorch. V poslední kapitole práce je rozebráno a vyhodnoceno několik důležitých experimentů prováděných v rámci ladění a testování vytvořeného systému.
The main goal of this thesis is to design and implement a system that will be able to generate a face based on the speech of a given person. This problem is solved using a system composed of three convolutional neural network models. The first one is based on the ResNet architecture and is used to extract features from speech recordings. The second model is a fully convolutional neural network which converts the extracted features into the styles which form a base for the final facial image. These styles are then passed as an input to the StyleGAN generator, which creates the resulting face. The proposed system is implemented in the Python programming language using the PyTorch framework. The last chapter of the thesis discusses some of the most significant experiments performed to fine-tune and test the developed system.
The main goal of this thesis is to design and implement a system that will be able to generate a face based on the speech of a given person. This problem is solved using a system composed of three convolutional neural network models. The first one is based on the ResNet architecture and is used to extract features from speech recordings. The second model is a fully convolutional neural network which converts the extracted features into the styles which form a base for the final facial image. These styles are then passed as an input to the StyleGAN generator, which creates the resulting face. The proposed system is implemented in the Python programming language using the PyTorch framework. The last chapter of the thesis discusses some of the most significant experiments performed to fine-tune and test the developed system.
Description
Keywords
konvoluční neuronové sítě, ResNet, GAN, zpracování řeči, umělá inteligence, generativní adverzní sítě, zpracování obrazu, Python, PyTorch, odhad obličeje, StyleGAN, convolutional neural networks, ResNet, GAN, speech processing, artificial intelligence, generative adversarial networks, image processing, Python, PyTorch, face estimation, StyleGAN
Citation
ZUBALÍK, P. Odhad obličeje z řečového signálu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Strojové učení
Comittee
prof. Dr. Ing. Jan Černocký (předseda)
doc. Ing. Lukáš Burget, Ph.D. (místopředseda)
doc. RNDr. Milan Češka, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Jaroslav Rozman, Ph.D. (člen)
doc. Ing. František Zbořil, CSc. (člen)
Date of acceptance
2022-06-21
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Z kodéru, jenž je založen na architektuře ResNet, jsou extrahovány 3 vnitřní reprezentace využívané pro tvorbu stylů (Obrázek 3.4). Komentujte důvod a důsledky využití sčítání vnitřní reprezentace s nadvzorkovanou reprezentací na vyšší úrovni. Normalizace ("frontalizace") obrázků obličejů trvala dle zprávy 1500 hodin (62,5 dne). Využil jste nějaký přístup k paralelizaci výpočtu? Pakliže výpočet neprobíhal sériově, jak dlouho reálně trval? Zkuste se zamyslet nad možností předtrénování kodéru pouze pomocí "Style loss". Tento přístup by se koncepčně podobal Speech2Face. Jaké jsou potenciální benefity a problémy spojené s tímto předtrénováním?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení