Adversariální augmentace pro robustní separaci řeči
but.committee | prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: je SI-SNR (který navíc předpokládá dokonalou synchronizaci signálů) augmentovaného mixu a toho původního skutečně tím nejlepším kritériem pro diskriminátor ? Nejde vlastně proti augmentaci ? Dala by na jednotlivé zdrojové signály samostatně aplikovat různé augmentace a pak teprve je sečíst ? Dala by se taková architektura natrénovat ? v sekci 6.14 vyhodnocujete úspěšnost systému trénováno na GAN-augmentovaných datech na mixech získaných podobnou augmentací. Nebo by férovější vyrobit nějaké mixy ručně, klasickými technikami popsanými v sekci 4.2 ? | cs |
but.jazyk | angličtina (English) | |
but.program | Informační technologie a umělá inteligence | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Žmolíková, Kateřina | en |
dc.contributor.author | Pavlus, Ján | en |
dc.contributor.referee | Černocký, Jan | en |
dc.date.accessioned | 2022-06-24T06:55:48Z | |
dc.date.available | 2022-06-24T06:55:48Z | |
dc.date.created | 2022 | cs |
dc.description.abstract | Separace řečníků se zabývá separácí signálů jednotlivých řečníků z dané směsi vícero řečníků. Neuronové sítě trénované pro separaci řečníků fungují většinou dobře na uměle smíchaných nahrávkách, ovšem při použití směsí z reálného světa často selhávají. Pro zlepšení tohoto chování, je možné použít augmentaci trénovacích dat, jako je například přidání šumu. Nicméně tyto augmentace jsou limitovány tím, že musí být ručně navrhnuty. V této práci je použita modifikovaná verze modelu generativních adversarialních sítí (GAN), která může zlepšit tuto vlastnost tak, že generuje augmentace na základě míry zmatení separačního systému. Po každém kroku trénování generátoru a separátoru se systém separace řečníků stává více robustní. Takto navrhnutý model byl podroben experimentům. Během těchto experimentů byly různě nastavovány parametry GAN modelu, aby se nalezlo jejich nejlepší nastavení, které by vedlo ke správnému natrénování modelu, bez zkolabování do žádného módu. Během experimentů bylo takové nastavení nalezeno. Z takto natrénovaného modelu byl vybrán nejvíce robustní separátor a ten poté vyhodnocen. Výsledky hodnocení neukázaly zlepšení funkčnosti zrobustněného separačního systému vůči samému nezrobustněnému systému předtrénovanému na WSJ0-2mix datasetu, během testování na datasetu WHAM. Nicméně výsledky jiného hodnocení experimentů ukázaly, že separátor vybrán z trénování GAN modelu je značně zrobustněn oproti původnímu. | en |
dc.description.abstract | Speech separation is the task of separating single signals from the given mixture of multiple speakers. Neural networks trained for speech separation usually work well on artificial data but they often fail on real-world examples. To improve their behavior on real-world mixtures it is possible to use training data augmentations such as noise addition. Nevertheless, the power of these augmentations is limited as they have to be manually designed. In this work, the modified version of the generative adversarial networks (GAN) model could improve this process by generating augmentations depending on the separation performance on these data. Speech separation could be then made more robust with each generator and separator training step. This system was subjected to experimentation. During these experiments, the parameters have been tuned to find the best setting that will successfully train the GAN model without collapsing. This setting was found and the most robust model from the training was selected and evaluated. Results show that the separator model trained by the GAN model does not achieve any significant improvement from the original separator model pretrained on the WSJ0-2mix dataset during the testing on the WHAM dataset. Nevertheless, another evaluation shows that the separator model trained by the GAN model is significantly more robust than the original one towards the generated noises. | cs |
dc.description.mark | A | cs |
dc.identifier.citation | PAVLUS, J. Adversariální augmentace pro robustní separaci řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022. | cs |
dc.identifier.other | 145479 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/207878 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | separace řečníků | en |
dc.subject | GAN | en |
dc.subject | adversarialní augmentace | en |
dc.subject | robustní neuronová síť | en |
dc.subject | speech separation | cs |
dc.subject | GAN | cs |
dc.subject | adversarial augmentations | cs |
dc.subject | robust neural network | cs |
dc.title | Adversariální augmentace pro robustní separaci řeči | en |
dc.title.alternative | Adversarial Augmentation for Robust Speech Separation | cs |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2022-06-21 | cs |
dcterms.modified | 2022-06-23-09:13:55 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 145479 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2022.06.24 08:55:48 | en |
sync.item.modts | 2022.06.24 08:12:47 | en |
thesis.discipline | Strojové učení | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 4.1 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-25172_v.pdf
- Size:
- 86.03 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-25172_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-25172_o.pdf
- Size:
- 91.49 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-25172_o.pdf
Loading...
- Name:
- review_145479.html
- Size:
- 1.46 KB
- Format:
- Hypertext Markup Language
- Description:
- review_145479.html