Rozpoznávání historických textů pomocí hlubokých neuronových sítí

Loading...
Thumbnail Image

Date

Authors

Kišš, Martin

Mark

B

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Cílem této práce je vytvořit nástroj pro automatický přepis textu historických dokumentů. Práce je zaměřena především na rozpoznávání textů pocházejících z období novověku psané písmem zvané Fraktura. Problém je řešen pomocí nově navržených rekurentních konvolučních neuronových sítí a také pomocí sítě zvané Spatial Transformer Network. Součástí řešení je také implementovaný generátor umělých historických textů. Pomocí tohoto generátoru je vytvořena umělá datová sada, na níž je natrénována konvoluční neuronová síť pro rozpoznávání řádků. Tato síť je následně otestována na reálných historických řádcích textu, na kterých natrénovaná sít dosahuje úspešnosti až 89.0 % znakové přesnosti. Přínosem této práce je především nově navržená neuronová síť pro rozpoznávání řádků textu a implementovaný generátor umělých historických textů, s jehož pomocí je možné natrénovat neuronovou síť tak, aby zvládala rozpoznávat reálné historické řádky textu.
The aim of this work is to create a tool for automatic transcription of historical documents. The work is mainly focused on the recognition of texts from the period of modern times written using font Fraktur. The problem is solved with a newly designed recurrent convolutional neural networks and a Spatial Transformer Network. Part of the solution is also an implemented generator of artificial historical texts. Using this generator, an artificial data set is created on which the convolutional neural network for line recognition is trained. This network is then tested on real historical lines of text on which the network achieves up to 89.0 % of character accuracy. The contribution of this work is primarily the newly designed neural network for text line recognition and the implemented artificial text generator, with which it is possible to train the neural network to recognize real historical lines of text.

Description

Citation

KIŠŠ, M. Rozpoznávání historických textů pomocí hlubokých neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2018.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Inteligentní systémy

Comittee

doc. Ing. František Zbořil, CSc. (předseda) prof. RNDr. Alexandr Meduna, CSc. (místopředseda) doc. Ing. Michal Bidlo, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) prof. Ing. Radomil Matoušek, Ph.D. (člen) Dr. Ing. Petr Peringer (člen)

Date of acceptance

2018-06-18

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: V práci uvádíte (strana 37), že u některých znaků při rozpoznávání dochází k záměně nebo ke spojení. Nebylo by v takových případech možné využít znalosti o pravděpodobných slovech v textu a "vylepšit" tak rozpoznávání? Na základě Vašich výsledků úspěšnosti při rozpoznávání znaků (u=89%), lze odhadnout úspěšnost rozpoznání celých slov? (Je to prosté u^n, kde n je počet znaků, nebo je to jinak?)

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO