Bayesovský přístup k určování akustických jednotek v řeči

but.committeeprof. Ing. Lukáš Sekanina, Ph.D. (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (člen) doc. Ing. Václav Šmídl, Ph.D. (člen) doc. Ing. Petr Pollák, CSc. (člen) doc. RNDr. Aleš Horák, Ph.D. (člen)cs
but.defenceStudent přednesl cíle a výsledky, kterých v rámci řešení disertační práce dosáh. V rozpravě student odpověděl na otázky komise a oponentů. Komise zhodnotila dosažené výsledky studenta a hodnotí je jako opravdu vynikající na mezinárodní úrovni. Komise doporučuje a podporuje případné udělení ceny za vynikající disertační práci. Komise se v závěru jednomyslně usnesla, že student splnil podmínky pro udělení akademického titulu doktor.cs
but.jazykangličtina (English)
but.programVýpočetní technika a informatikacs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBurget, Lukášen
dc.contributor.authorOndel, Lucas Antoine Francoisen
dc.contributor.refereeHäb-Umbach, Reinholden
dc.contributor.refereeGlass, Jimen
dc.date.accessioned2021-05-31T23:58:34Z
dc.date.available2021-05-31T23:58:34Z
dc.date.createdcs
dc.description.abstractDěti mají již od útlého věku vrozenou schopnost vyvozovat jazykové znalosti z mluvené řeči - dlouho předtím, než se naučí číst a psát. Moderní systémy pro rozpoznávání řeči oproti tomu potřebují k dosažení nízké chybovosti značná množství přepsaných řečových dat. Teprve nedávno založená vědecká oblast "učení řeči bez supervize" se věnuje přenosu popsaných lidských schopností do strojového učení. V rámci této oblasti se naše práce zaměřuje na problém určení sady akustických jednotek z jazyka, kde jsou k disposici pouze nepřepsané zvukové nahrávky. Pro řešení tohoto problému zkoumáme zejména potenciál bayesovské inference. V práci nejprve pro úlohu určování akustických jednotek revidujeme využití state-of-the-art neparametrického bayesovského modelu, pro který jsme odvodili rychlý a efektivní algoritmus variační bayesovské inference. Náš přístup se opírá o konstrukci Dirichletova procesu pomocí "lámání hůlky" (stick breaking) umožňující vyjádření modelu jako fonémové smyčky založené na skrytém Markovově modelu. S tímto modelem a vhodnou středopolní (mean-field) aproximací variační posteriorní pravděpodobnosti je inference realizována pomocí efektivního iteračního algoritmu, podobného známému schématu Expectation-Maximization (EM). Experimenty ukazují, že tento přístup zajišťuje lepší shlukování než původní model, přičemž je řádově rychlejší. Druhým přínosem práce je řešení problému definice smysluplného apriorního rozdělení na potenciální akustické jednotky. Za tímto účelem představujeme zobecněný podprostorový model (Generalized Subspace Model) - teoretický rámec umožňující definovat pravděpodobnostní rozdělení v nízkodimenzionálních nadplochách (manifoldech) ve vysokorozměrném prostoru parametrů. Pomocí tohoto nástroje učíme fonetický podprostor - kontinuum vektorových reprezentací (embeddingů) fonémů - z několika jazyků s přepsanými nahrávkami. Pak je tento fonetický podprostor použit k omezení našeho systému tak, aby určené akustické jednotky byly podobné fonémům z ostatních jazyků. Experimentální výsledky ukazují,že tento přístup významně zlepšuje kvalitu shlukování i přesnost segmentace systému pro určování akustických jednotek.en
dc.description.abstractFrom an early age, infants show an innate ability to infer linguistic structures from the speech signal long before they learn to read and write. In contrast, modern speech recognition systems require large collections of transcribed data to achieve a low error rate. The relatively recent field of Unsupervised Speech Learning has been dedicated to endow machines with a similar ability. As a part of this ongoing effort, this thesis focuses on the problem of discovering a set of acoustic units from a language given untranscribed audio recordings. Particularly, we explore the potential of Bayesian inference to address this problem. First, we revisit the state-of-the-art non-parametric Bayesian model for the task of acoustic unit discovery and derive a fast and efficient Variational Bayes inference algorithm. Our approach relies on the stick-breaking construction of the Dirichlet Process which allows expressing the model as a Hidden Markov Model-based phone-loop. With this model and a suitable mean-field approximation of the variational posterior, the inference is made with an efficient iterative algorithm similar to the Expectation-Maximization scheme. Experiments show that this approach performs a better clustering than the original model while being orders of magnitude faster. Secondly, we address the problem of defining a meaningful a priori distribution over the potential acoustic units. To do so, we introduce the Generalized Subspace Model, a theoretical framework that allows defining distributions over low-dimensional manifolds in high-dimensional parameter space. Using this tool, we learn a phonetic subspace - a continuum of phone embeddings-from several languages with transcribed recordings. Then, this phonetic subspace is used to constrain our system to discover acoustic units that are similar to phones from other languages. Experimental results show that this approach significantly improves the clustering quality as well as the segmentation accuracy of the acoustic unit discovery system. Finally, we enhance our acoustic units discovery model by using a Hierarchical Dirichlet Process prior instead of the simple Dirichlet Process. By doing so, we introduce a Bayesian bigram phonotactic language model to the acoustic unit discovery system. This approach captures more accurately the phonetic structure of the target language and consequently helps the clustering of the speech signal. Also, to fully exploit the benefits of the phonotactic language model, we derive a modified Variational Bayes algorithm that can balance the preponderance of the role of the acoustic and language model during inference.cs
dc.description.markPcs
dc.identifier.citationONDEL, L. Bayesovský přístup k určování akustických jednotek v řeči [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. .cs
dc.identifier.other135531cs
dc.identifier.urihttp://hdl.handle.net/11012/196805
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectUčení řeči bez supervizeen
dc.subjecturčování akustických jednoteken
dc.subjectbayesovská inferenceen
dc.subjectzobecněný pod-prostorový model.en
dc.subjectUnsupervised Speech Learningcs
dc.subjectAcoustic Unit Discoverycs
dc.subjectBayesian inferencecs
dc.subjectGeneralized Subspace Model.cs
dc.titleBayesovský přístup k určování akustických jednotek v řečien
dc.title.alternativeDiscovering Acoustic Units from Speech: a Bayesian Approachcs
dc.typeTextcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
dcterms.modified2021-03-15-18:00:50cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid135531en
sync.item.dbtypeZPen
sync.item.insts2021.06.01 01:58:33en
sync.item.modts2021.06.01 00:14:57en
thesis.disciplineVýpočetní technika a informatikacs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelDoktorskýcs
thesis.namePh.D.cs
Files
Original bundle
Now showing 1 - 5 of 6
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.38 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-751_s1.pdf
Size:
1.65 MB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-751_s1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-751_o2.pdf
Size:
371.24 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-751_o2.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-751_o1.pdf
Size:
269.37 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-751_o1.pdf
Loading...
Thumbnail Image
Name:
thesis-1.pdf
Size:
874.26 KB
Format:
Adobe Portable Document Format
Description:
thesis-1.pdf
Collections