Odhad obličeje z řečového signálu

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Z kodéru, jenž je založen na architektuře ResNet, jsou extrahovány 3 vnitřní reprezentace využívané pro tvorbu stylů (Obrázek 3.4). Komentujte důvod a důsledky využití sčítání vnitřní reprezentace s nadvzorkovanou reprezentací na vyšší úrovni. Normalizace ("frontalizace") obrázků obličejů trvala dle zprávy 1500 hodin (62,5 dne). Využil jste nějaký přístup k paralelizaci výpočtu? Pakliže výpočet neprobíhal sériově, jak dlouho reálně trval? Zkuste se zamyslet nad možností předtrénování kodéru pouze pomocí "Style loss". Tento přístup by se koncepčně podobal Speech2Face. Jaké jsou potenciální benefity a problémy spojené s tímto předtrénováním?cs
but.jazykčeština (Czech)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorPlchot, Oldřichcs
dc.contributor.authorZubalík, Petrcs
dc.contributor.refereeMošner, Ladislavcs
dc.date.created2022cs
dc.description.abstractHlavním cílem této diplomové práce bylo navrhnout a implementovat systém, který bude schopný odhadnout obličej na základě řeči daného člověka. Tento problém je vyřešen pomocí systému složeného ze tří modelů konvolučních neuronových sítí. První z nich je založen na architektuře ResNet a slouží pro extrahování příznaků z hlasových nahrávek. Druhým modelem je plně konvoluční neuronová síť, která převádí tyto příznaky na styly, na základě kterých bude upravován výsledný obrázek obličeje. Získané styly jsou poté předávány na vstup generátoru StyleGAN pro vygenerování výsledného obličeje. Navržený systém je implementován v programovacím jazyce Python s využitím frameworku PyTorch. V poslední kapitole práce je rozebráno a vyhodnoceno několik důležitých experimentů prováděných v rámci ladění a testování vytvořeného systému.cs
dc.description.abstractThe main goal of this thesis is to design and implement a system that will be able to generate a face based on the speech of a given person. This problem is solved using a system composed of three convolutional neural network models. The first one is based on the ResNet architecture and is used to extract features from speech recordings. The second model is a fully convolutional neural network which converts the extracted features into the styles which form a base for the final facial image. These styles are then passed as an input to the StyleGAN generator, which creates the resulting face. The proposed system is implemented in the Python programming language using the PyTorch framework. The last chapter of the thesis discusses some of the most significant experiments performed to fine-tune and test the developed system.en
dc.description.markBcs
dc.identifier.citationZUBALÍK, P. Odhad obličeje z řečového signálu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.cs
dc.identifier.other145453cs
dc.identifier.urihttp://hdl.handle.net/11012/207852
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectkonvoluční neuronové sítěcs
dc.subjectResNetcs
dc.subjectGANcs
dc.subjectzpracování řečics
dc.subjectumělá inteligencecs
dc.subjectgenerativní adverzní sítěcs
dc.subjectzpracování obrazucs
dc.subjectPythoncs
dc.subjectPyTorchcs
dc.subjectodhad obličejecs
dc.subjectStyleGANcs
dc.subjectconvolutional neural networksen
dc.subjectResNeten
dc.subjectGANen
dc.subjectspeech processingen
dc.subjectartificial intelligenceen
dc.subjectgenerative adversarial networksen
dc.subjectimage processingen
dc.subjectPythonen
dc.subjectPyTorchen
dc.subjectface estimationen
dc.subjectStyleGANen
dc.titleOdhad obličeje z řečového signálucs
dc.title.alternativeLearning the Face Behind a Voiceen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2022-06-21cs
dcterms.modified2022-06-23-09:13:59cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid145453en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 15:35:36en
sync.item.modts2025.01.17 11:38:52en
thesis.disciplineStrojové učenícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs

Files

Original bundle

Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
13.07 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-24862_v.pdf
Size:
86.41 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-24862_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-24862_o.pdf
Size:
93.37 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-24862_o.pdf
Loading...
Thumbnail Image
Name:
review_145453.html
Size:
1.44 KB
Format:
Hypertext Markup Language
Description:
file review_145453.html

Collections