Rozpoznávání řeči překrývajících se řečníků pomocí neuronových sítí

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Filip Orság, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Můžete popsat hlavní rozdíly Vaší implementace "attention" mechanizmu proti použitým v citovaných článcích? Model bez "attention" mechanizmu překonal ty, které ho používají, jak si to vysvětlujete? Pokud máte za sebou několik lineárních vrstev, můžete je nahradit jen jednou?cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorŽmolíková, Kateřinaen
dc.contributor.authorHradil, Jaromíren
dc.contributor.refereeŠvec, Jánen
dc.date.created2020cs
dc.description.abstractTato práce se zabývá rozpoznáváním řeči překrývajících se řečníků pomocí neuronové sítě. Zkoumá  problém rozpoznávání řečí od vícero řečníků a způsoby, jimiž se tento daný problém řeší. Jedná se konkrétně o aplikaci kromě tradičních komponentů jako konvoluční neuronové sítě, LSTM atd. také speciálních komponentů: attention mechanismus a gated konvoluce. A dále také aplikace techniky zvanou permutation invariant training. Součástí této práce je aplikování těchto přístupů na přidělená trénovací data, která jsou tvořena uměle vytvořenými směsmi dvou řečníků předčítající články z Wall Street Journal. Dalším krokem bylo natrénování příslušných architektur používající kombinující prvky zmíněné nahoře. Modely v této práci nahrazují akustický model. Jednalo se o dvě architektury užívající různé typy attention mechanismu a o jednu bez něj.  Experimenty ukázaly, že architektury užívající attention mechanismus v tomto typu úlohy něpřekonaly tradičnější architekturu s užitím gated konvolucí. Přesto ale ukázaly potenciál.en
dc.description.abstractThis work deals with the speech recognition of overlapping speakers using a neural network. It examines the problem of speech recognition from multiple speakers and the ways in which this problem is solved. Specifically, in addition to traditional components such as convolutional neural networks, LSTM, etc., it is also an application of special components: attention mechanism and gated convolution. And also the application of a technique called permutation invariant training. Part of this work is to apply these approaches to assigned training data, which consists of artificially created mixtures of two speakers reading articles from the Wall Street Journal. The next step was to train the respective architectures using the combinations of the elements mentioned above. The models in this work replace the acoustic model. There were two architectures using different types of attention mechanism and one without it. Experiments have shown that architectures using the attention mechanism in this type of task have not surpassed more traditional architecture by suffering from gated convolution. Nevertheless, they showed potential.cs
dc.description.markBcs
dc.identifier.citationHRADIL, J. Rozpoznávání řeči překrývajících se řečníků pomocí neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020.cs
dc.identifier.other129156cs
dc.identifier.urihttp://hdl.handle.net/11012/191516
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectrozpoznávání řečien
dc.subjectneuronové sítěen
dc.subjectattention mechanismusen
dc.subjectpřekrývající se řečen
dc.subjectspeech recognitioncs
dc.subjectneural networkscs
dc.subjectattention mechanismcs
dc.subjectoverlapping speechcs
dc.titleRozpoznávání řeči překrývajících se řečníků pomocí neuronových sítíen
dc.title.alternativeRecognition of Multi-Talker Overlapping Speech Using Neural Networkscs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2020-07-10cs
dcterms.modified2020-08-31-09:53:42cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid129156en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:30:08en
sync.item.modts2025.01.15 15:01:43en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.51 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-23005_v.pdf
Size:
85.58 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-23005_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-23005_o.pdf
Size:
90.4 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-23005_o.pdf
Loading...
Thumbnail Image
Name:
review_129156.html
Size:
1.48 KB
Format:
Hypertext Markup Language
Description:
file review_129156.html
Collections