"Semi-supervised" trénování hlubokých neuronových sítí pro rozpoznávání řeči

but.committeecs
but.defencecs
but.jazykangličtina (English)
but.programVýpočetní technika a informatikacs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Lukášen
dc.contributor.authorVeselý, Karelen
dc.contributor.refereeIrcing, Pavelen
dc.contributor.refereeLamel, Lorien
dc.date.accessioned2020-05-11T04:25:33Z
dc.date.available2020-05-11T04:25:33Z
dc.date.created2018cs
dc.description.abstractV této dizertační práci nejprve prezentujeme teorii trénování neuronových sítí pro rozpoznávání řeči společně s implementací trénovacího receptu 'nnet1', který je součástí toolkitu s otevřeným kódem Kaldi. Recept se skládá z předtrénování bez učitele pomocí algoritmu RBM, trénování klasifikátoru z řečových rámců s kriteriální funkcí Cross-entropy a ze sekvenčního trénování po větách s kriteriální funkcí sMBR. Následuje hlavní téma práce, kterým je semi-supervised trénování se smíšenými daty s přepisem i bez přepisu. Inspirováni konferenčními články a úvodními experimenty jsme se zaměřili na několik otázek: Nejprve na to, zda je lepší konfidence (t.j. důvěryhodnosti automaticky získaných anotací) počítat po větách, po slovech nebo po řečových rámcích. Dále na to, zda by konfidence měly být použity pro výběr dat nebo váhování dat - oba přístupy jsou kompatibilní s trénováním pomocí metody stochastického nejstrmějšího sestupu, kde jsou gradienty řečových rámců násobeny vahou. Dále jsme se zabývali vylepšováním semi-supervised trénování pomocí kalibrace kofidencí a přístupy, jak model dále vylepšit pomocí dat se správným přepisem. Nakonec jsme navrhli jednoduchý recept, pro který není nutné časově náročné ladění hyper-parametrů trénování, a který je prakticky využitelný pro různé datové sady. Experimenty probíhaly na několika sadách řečových dat: pro rozpoznávač vietnamštiny s 10 přepsaným hodinami (Babel) se chybovost snížila o 2.5%, pro angličtinu se 14 přepsanými hodinami (Switchboard) se chybovost snížila o 3.2%. Zjistili jsme, že je poměrně těžké dále vylepšit přesnost systému pomocí úprav konfidencí, zároveň jsme ale přesvědčení, že naše závěry mají značnou praktickou hodnotu: data bez přepisu je jednoduché nasbírat a naše navrhované řešení přináší dobrá zlepšení úspěšnosti a není těžké je replikovat.en
dc.description.abstractIn this thesis, we first present the theory of neural network training for the speech recognition, along with our implementation, that is available as the 'nnet1' training recipe in the Kaldi toolkit. The recipe contains RBM pre-training, mini-batch frame Cross-Entropy training and sequence-discriminative sMBR training. Then we continue with the main topic of this thesis: semi-supervised training of DNN-based ASR systems. Inspired by the literature survey and our initial experiments, we investigated several problems: First, whether the confidences are better to be calculated per-sentence, per-word or per-frame. Second, whether the confidences should be used for data-selection or data-weighting. Both approaches are compatible with the framework of weighted mini-batch SGD training. Then we tried to get better insight into confidence calibration, more precisely whether it can improve the efficiency of semi-supervised training. We also investigated how the model should be re-tuned with the correctly transcribed data. Finally, we proposed a simple recipe that avoids a grid search of hyper-parameters, and therefore is very practical for general use with any dataset. The experiments were conducted on several data-sets: for Babel Vietnamese with 10 hours of transcribed speech, the Word Error Rate (WER) was reduced by 2.5%. For Switchboard English with 14 hours of transcribed speech, the WER was reduced by 3.2%. Although we found it difficult to further improve the performance of semi-supervised training by means of enhancing the confidences, we still believe that our findings are of significant practical value: the untranscribed data are abundant and easy to obtain, and our proposed solution brings solid WER improvements and it is not difficult to replicate.cs
dc.description.markPcs
dc.identifier.citationVESELÝ, K. "Semi-supervised" trénování hlubokých neuronových sítí pro rozpoznávání řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2018.cs
dc.identifier.other128171cs
dc.identifier.urihttp://hdl.handle.net/11012/187318
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectHluboké neuronové sítěen
dc.subjectrozpoznávání řečien
dc.subjectsemi-supervised trénování se smíšenými daty s přepisem i bez přepisuen
dc.subjectKaldien
dc.subjectnnet1en
dc.subjectDeep neural networkscs
dc.subjectspeech recognitioncs
dc.subjectsemi-supervised trainingcs
dc.subjectKaldics
dc.subjectnnet1cs
dc.title"Semi-supervised" trénování hlubokých neuronových sítí pro rozpoznávání řečien
dc.title.alternativeSemi-Supervised Training of Deep Neural Networks for Speech Recognitioncs
dc.typeTextcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
dcterms.dateAccepted2018-04-03cs
dcterms.modified2020-05-10-17:46:44cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid128171en
sync.item.dbtypeZPen
sync.item.insts2020.05.14 00:59:05en
sync.item.modts2020.05.14 00:13:45en
thesis.disciplineVýpočetní technika a informatikacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelDoktorskýcs
thesis.namePh.D.cs
Files
Original bundle
Now showing 1 - 5 of 6
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.3 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-568_s1.pdf
Size:
986.19 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-568_s1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-568_o1.pdf
Size:
603.1 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-568_o1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-568_o2.pdf
Size:
208.75 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-568_o2.pdf
Loading...
Thumbnail Image
Name:
thesis-1.pdf
Size:
1.36 MB
Format:
Adobe Portable Document Format
Description:
thesis-1.pdf
Collections