Generativní neuronové sítě pro ručně psané písmo

Loading...
Thumbnail Image

Date

Authors

Ševčík, Pavel

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Cílem této práce bylo vytvořit model pro generování řádků ručně psaného písma. Model na základě očekávaného stylu a libovolně dlouhého textu vytváří odpovídají obrázek s písmem. Navržené řešení překonává existující přístupy v kvalitě generovaného písma a umožňuje generování jak samostatných slov, tak i řádků. Kombinuje vyhledávání příznaků pro jednotlivé symboly pomocí attention a jejich rozmístění na řádek pomocí vkládání mezer. Nový přístup umožňuje specifikovat pozice symbolů na řádku jemněji než celými čísly, a tak vytvářet plynulejší interpolace mezi různými styly. Na rozdíl od předchozího řešení tento přístup využívá Gaussův filtr pro rozšíření jednotlivých příznaků symbolů do blízkého okolí. Současně tento přístup otevírá množnost trénování modelu pro odhad pozic symbolů na řádku adversariální chybou (GAN). Navíc byly vytvořeny anotace horizontálních pozic symbolů na řádcích datové sady ručně psaného písma IAM.
The aim of this study was to create a generative neural network for handwritten text lines. The model produces variable-sized images of handwritten text lines based on the expected style. The proposed method exceeds existing models in the image quality and can be used to generate both individual words and entire lines of handwritten text. It combines the use of the attention mechanism to extract the features for each character from the text query and their arranging on the line by inserting spaces between them. The new approach allows more granular control of the symbol positions on the line, which leads to smoother style interpolations. In contrast to the previous approach, the proposed method uses the Gaussian filter to spread the individual symbols features to the surrounding area. This approach also allows to train the model for symbols position predictions using the adversarial loss (GAN). In addition, annotations of symbol horizontal positions on the lines of the IAM dataset of handwritten text have been created.

Description

Citation

ŠEVČÍK, P. Generativní neuronové sítě pro ručně psané písmo [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Strojové učení

Comittee

prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (člen)

Date of acceptance

2022-06-21

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Do trénování celého modelu pro generování písma je zapojená i OCR síť (označená jako "R"). Je tato síť předtrénovaná, nebo se trénuje od začátku (společně se zbytkem modelu)? Jak přesně probíhají jednotlivé iterace dekodéru v autoregresivní síti "S" (na obrázku 4.6 na straně 28)?

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO