Neuronové sítě typu Transformer pro přepis ručně psaného textu

Loading...
Thumbnail Image
Date
ORCID
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Cieľom tejto práce je navrhnúť systém používajúci sieť typu transformer a uskutočniť s touto sieťou experimenty pri rozpoznávaní ručne písaného textu. V rámci práce sa používa multilingválna dátová sada, v ktorej prevažujú české texty. Pri experimentovaní sa zisťuje vplyv základných hyperparametrov siete, akými sú veľkosť siete, typ konvolučného kodéra a použitie rôznej tokenizácie textu. V práci ďalej využívam textové korpusy českého jazyka, ktoré sa používajú pri trénovaní dekódera. Ďalej v práci experimentujem s použitím dodatočnej textovej informácie pri procese dekódovania. Táto informácia pochádza z predchádzajúceho riadka prepisovaného obrázka s textom. Transformer dosahuje na testovacej dátovej sade chybovosť pri rozpoznávní znakov 3,41 %, čo je o 0,16 % horší výkon ako dosahuje rekurentná neurónová sieť. Pre porovnanie s ostatnými transformer modelmi z dostupných článkov, bola sieť natrénovaná na dátovej sade IAM, na ktorej dosiahla chybu v hodnote 2,48 %, a tým prekonala ostatné transformer modely pri rozpoznávaní ručne písaného textu.
This Master's thesis aims to design a system using the transformer neural network and perform experiments with this proposed model in the task of handwriting text recognition. In this thesis, a multilingual dataset with predominate Czech texts is used. The experiments examine the influence of basic hyperparameters, such as network size, convolutional encoder type, and the use of different text tokenizers. In this work, I also use text corpora of the Czech language which is used to train the network decoder. Furthermore, I experiment with the usage of additional textual information during the decoding process. This information comes from the previous line of the transcribed image. The transformer achieves a character recognition error rate of 3.41 % on the test data set which is 0.16 % worse performance than the recurrent neural network achieves. To compare this model with other transformer-based models from available articles, the network was trained on the IAM dataset, where it achieved an error of 2.48 % and therefore outperformed other models in handwriting text recognition task.
Description
Citation
VEŠELÍNY, P. Neuronové sítě typu Transformer pro přepis ručně psaného textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.
Document type
Document version
Date of access to the full text
Language of document
sk
Study field
Strojové učení
Comittee
prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (člen)
Date of acceptance
2022-06-21
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO