Nízko-dimenzionální faktorizace pro "End-To-End" řečové systémy

Práca sa zaoberá problematikou rozpoznávania reči s pomocou učenia neurónových sietí, na ktoré je aplikovaný algoritmus nízko-dimenzionálnej faktorizácie. V práci je popísaná implementácia časovo oneskorených neurónových sietí s faktorizáciou (TDNN-F) a bez nej (TDNN) v jazyku Pytorch. Následne je porovnávaná s už existujúcou implementáciou v nástroji Kaldi, kde boli dosiahnuté podobné výsledky v rámci experimentovania s rôznymi architektúrami. V poslednej kapitole popisujeme dopad nízko-dimenzionálnej faktorizácie na 'End-to-End' (E2E) rečové systémy a taktiež modifikovanie systému s TDNN(-F) sieťami. Pri experimentoch sa nám v určitých nastaveniach sietí s faktorizáciou podarilo zlepšiť výsledky.Súčasne sme pomocou TDNN(-F) sietí dokázali zmenšiť komplexnosť učenia redukciou veľkosti siete.
The project covers automatic speech recognition with neural network training using low-dimensional matrix factorization. We are describing time delay neural networks with factorization (TDNN-F) and without it (TDNN) in Pytorch language. We are comparing the implementation between Pytorch and Kaldi toolkit, where we achieve similar results during experiments with various network architectures. The last chapter describes the impact of a low-dimensional matrix factorization on End-to-End speech recognition systems and also a modification of the system with TDNN(-F) networks. Using specific network settings, we were able to achieve better results with systems using factorization. Additionally, we reduced the complexity of training by decreasing network parameters with the use of TDNN(-F) networks.

Keywords

Automatické rozpoznávanie reči , konvolučné neurónové siete , TDNN , nízko-dimenzionálna faktorizácia , E2E , TDNN-F , Pytorch , Kaldi , ESPnet , Automatic speech recognition , convolution neural networks , TDNN , low-dimensional matrix factorization , E2E , TDNN-F , Pytorch , Kaldi , ESPnet

Citation

GAJDÁR, M. Nízko-dimenzionální faktorizace pro "End-To-End" řečové systémy [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020.

Language of document

sk

Study field

Počítačová grafika a multimédia

Comittee

prof. Dr. Ing. Jan Černocký (předseda) prof. Ing. Adam Herout, Ph.D. (místopředseda) Ing. David Bařina, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen)

Date of acceptance

2020-07-15

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Můžete uvést čas potřebný pro natrénování sítě TDNN-F+BLSTMP a BLSTMP (tabulka 6.19)? Krátce uveďte rozdíly mezi oběma topologiemi. Pytorch implementace TDNN se dle vašich výsledků trénuje 10x pomaleji než je tomu v Kadi. V čem jsou hlavní důvody tohoto rozdílu? V pytorch implementaci jste použil jinou topologii TDNN(-F) sítě než je topologie v Kaldi. Můžete porovnat výsledky Kadi a pytorch topologie?

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/192526

Collections

2020

Citace PRO

Full item page

Nízko-dimenzionální faktorizace pro "End-To-End" řečové systémy

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO