Separace mluvčích v časové doméně pomocí neuronové sítě
but.committee | doc. Ing. Richard Růžička, Ph.D., MBA (předseda) doc. RNDr. Dana Hliněná, Ph.D. (místopředseda) prof. Ing. Adam Herout, Ph.D. (člen) Ing. Bohuslav Křena, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: Vysvětlete, jak probíhalo trénování separačního modulu popsaného v sekci 4.2 Vaší práce - pomocí referenčních např. binárních masek nebo "end to end" ? Vysvětlete význam konvoluční vrstvy s velikostí konvolučního jádra 1x1. Jak si vaše řešení stojí oproti řešením, které pracují ve frekvenčně časové oblasti? Nemůže za horšími výsledky stát použití filtrů 1x1? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Žmolíková, Kateřina | cs |
dc.contributor.author | Peška, Jiří | cs |
dc.contributor.referee | Černocký, Jan | cs |
dc.date.created | 2020 | cs |
dc.description.abstract | Práce se zabývá využitím konvolučních neuronových sítí pro automatickou separaci mluvčích v akustickém prostředí. Cílem je implementovat neuronovou síť podle architektury TasNet za použití frameworku PyTorch, natrénovat síť s různými hodnotami hyperparametrů a porovnat kvalitu separací vzhledem k velikosti síťě. Architektura oproti dosavadním metodám, které převáděly vstupní směs do časově-frekvenční reprezentace, používá konvoluční autoenkodér, který vstupní směs převádí do nezáporné reprezentace, která je optimalizovaná pro extrakci jednotlivých mluvčích. Samotné separace je docíleno aplikací masek, které jsou odhadnuty v separačním modulu. Modul tvoří opakující se posloupnost konvolučních bloků se zvyšující se dilatací, která napomáhá k modelování časových závislostí ve zpracovávané směsi. K vyhodnocení přesnosti byly použity metriky signal to distortion ratio (SDR), dále perceptual evaluation of speech quality (PESQ) a short-time objective intelligibility (STOI). Trénování a vyhodnocování proběhlo za použití Wall Street Journal datasetu (WSJ0). Natrénováním několika modelů s různými hodnotami hyperparametrů bylo možno pozorovat závislost mezi velikostí sítě a hodnotou SDR. Zatímco menší síť dosahovala, po 60 epochách trénování, přesnosti 10.8 dB, větší síť dosahovala až 12.71 dB. | cs |
dc.description.abstract | A thesis is about the usage of convolutional neural networks for automatic speech separation in an acoustic environment. The goal is to implement the neural network by following a TasNet architecture in the PyTorch framework, train this network with various values of hyper-parameters, and to compare the quality of separations based on the size of the network. In contrast to older architectures that transformed an input mixture into a time-frequency representation, this architecture uses a convolutional autoencoder, which transforms input mixture into a non-negative representation optimized for a speaker extraction. Separation is achieved by applying the masks, which are estimated in the separation module. This module consists of stacked convolutional blocks with increasing dilation, which helps with modeling of the long-term time dependencies in processed speech. Evaluation of the precision of the network is measured by a signal to distortion (SDR) metric, by a perceptual evaluation of speech quality (PESQ), and the short-time objective intelligibility (STOI). The Wall Street Journal dataset (WSJ0) has been used for training and evaluation. Trained models with various values of hyper-parameters enable us to observe the dependency between the size of the network and SDR value. While smaller network after 60 epochs of training reached 10.8 dB of accuracy, a bigger network reached 12.71 dB. | en |
dc.description.mark | C | cs |
dc.identifier.citation | PEŠKA, J. Separace mluvčích v časové doméně pomocí neuronové sítě [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020. | cs |
dc.identifier.other | 129909 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/194996 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | neuronové sítě | cs |
dc.subject | zpracování řeči | cs |
dc.subject | konvoluční neuronová síť | cs |
dc.subject | autoenkodér | cs |
dc.subject | separace mluvčích | cs |
dc.subject | strojové učení | cs |
dc.subject | tasnet | cs |
dc.subject | hluboké učení | cs |
dc.subject | artificial neural networks | en |
dc.subject | speech processing | en |
dc.subject | convolutional neural networks | en |
dc.subject | autoencoder | en |
dc.subject | speech separation | en |
dc.subject | machine learning | en |
dc.subject | tasnet | en |
dc.subject | deep learning | en |
dc.title | Separace mluvčích v časové doméně pomocí neuronové sítě | cs |
dc.title.alternative | Time-Domain Neural Network Based Speaker Separation | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2020-08-28 | cs |
dcterms.modified | 2020-08-30-19:06:23 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 129909 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 19:33:22 | en |
sync.item.modts | 2025.01.17 11:51:13 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 3.35 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-23185_v.pdf
- Size:
- 85.8 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-23185_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-23185_o.pdf
- Size:
- 89.34 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-23185_o.pdf
Loading...
- Name:
- review_129909.html
- Size:
- 1.46 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_129909.html