Odezírání ze rtů pomocí hlubokých neuronových sítí
but.committee | prof. Ing. Adam Herout, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) doc. Ing. Martin Čadík, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Jak velký slovník jste měl k dispozici? Jaký je Váš hlavní přínos? Co si myslíte o vysoké chybovosti, které jste dosáhl? Jak si Vaše metoda stojí v porovnání s existujícími řešeními? | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Hradiš, Michal | cs |
dc.contributor.author | Kadleček, Josef | cs |
dc.contributor.referee | Kišš, Martin | cs |
dc.date.created | 2019 | cs |
dc.description.abstract | Tato práce se zabývá současnými metodami pro přepis řeči na text a odezírání ze rtů za pomoci neuronových sítí. Následně se zabývá podobností architektur neuronových sítí operujících nad zvukem a videem při rozpoznávání řeči a porovnává dostupné audiovizuální datové sady. Výsledkem práce je sada experimentů porovnávající různé zásahy do modelu a jejich dopad na výsledky. Dále je součástí implementace systému pro přepis řeči (CER: 12.6 %) a pro odezírání ze rtů (CER: 57,7 %). Architektury obou systémů jsou založeny na extrakci příznaků pomocí konvolučních vrstev. Za nimi následují rekurentní vrstvy LSTM, další řada konvolučních vrstev a hodnotící funkce CTC. | cs |
dc.description.abstract | This thesis deals with current methods for automatic speech recognition and lip reading via neural networks. Furthermore it deals with similarities in the architectures of neural networks for audio and visual data and available datasets in the field of audiovisual automatic speech recognition. The main contribution of this thesis is set of experiments comparing different changes in neural network architecture and its impact on results. The thesis includes an implementation of a system for automatic speech recognition from audio (CER: 12.6 %) and visual (CER: 57,7 %) data. The architectures of both systems are based on features extraction via convolutional networks followed by recurrent layers LSTM, another layer of convolutions and loss function CTC. | en |
dc.description.mark | B | cs |
dc.identifier.citation | KADLEČEK, J. Odezírání ze rtů pomocí hlubokých neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019. | cs |
dc.identifier.other | 122043 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/180194 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | Odezírání ze rtů | cs |
dc.subject | přepis řeči | cs |
dc.subject | neuronové sítě | cs |
dc.subject | rekurentní neuronové sítě | cs |
dc.subject | konvoluce | cs |
dc.subject | počítačové vidění | cs |
dc.subject | sekvence na sekvenci | cs |
dc.subject | Enkodér-Dekodér | cs |
dc.subject | CTC | cs |
dc.subject | PyTorch | cs |
dc.subject | Python. | cs |
dc.subject | Lip reading | en |
dc.subject | speech recognition | en |
dc.subject | neural networks | en |
dc.subject | recurrent neural network | en |
dc.subject | convolution | en |
dc.subject | computer vision | en |
dc.subject | sequence to sequence | en |
dc.subject | Encoder-Decoder | en |
dc.subject | CTC | en |
dc.subject | PyTorch | en |
dc.subject | Python. | en |
dc.title | Odezírání ze rtů pomocí hlubokých neuronových sítí | cs |
dc.title.alternative | Convolutional Networks for Lip Reading | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2019-06-11 | cs |
dcterms.modified | 2019-07-08-13:31:24 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 122043 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 19:24:23 | en |
sync.item.modts | 2025.01.15 17:53:10 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- final-thesis.pdf
- Size:
- 2.43 MB
- Format:
- Adobe Portable Document Format
- Description:
- final-thesis.pdf
Loading...
- Name:
- Posudek-Vedouci prace-21772_v.pdf
- Size:
- 85.99 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Vedouci prace-21772_v.pdf
Loading...
- Name:
- Posudek-Oponent prace-21772_o.pdf
- Size:
- 87.12 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek-Oponent prace-21772_o.pdf
Loading...
- Name:
- review_122043.html
- Size:
- 1.45 KB
- Format:
- Hypertext Markup Language
- Description:
- file review_122043.html