Rozpoznávání textu pomocí konvolučních sítí
Loading...
Date
Authors
ORCID
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Tato práce se zabývá tvorbou nových datových sad pro účely strojového učení rozpoznávání textu z fotografií a experimenty s konvolučními neuronovými sítěmi na těchto sadách. Popisuje architekturu konvolučních sítí, problémy rozpoznávání z fotografií a současné práce využívající tyto sítě. Dále tvorbu anotace datové sady fotografií stránek dokumentů, pořízených mobilními telefony, nazvané Mobile Page Photos. K anotaci je využit Tesseract OCR. Z této sady jsou vyříznutím znaků z fotografií vytvořeny dvě další. Jedná se o sady znaků dobře čitelných Mobile Nice Page Photos Characters a dobře i spatně až nečitelných Mobile Page Photos Characters, ve formátu datové sady číslic Street View House Numbers. S třemi vytvořenými modely konvolučních sítí jsou na datových sadách provedeny experimenty s rozpoznáváním textu, s jejichž pomocí je také odhadnuta chyba anotace.
This thesis aims at creation of new datasets for text recognition machine learning tasks and experiments with convolutional neural networks on these datasets. It describes architecture of convolutional nets, difficulties of recognizing text from photographs and contemporary works using these networks. Next, creation of annotation, using Tesseract OCR, for dataset comprised from photos of document pages, taken by mobile phones, named Mobile Page Photos. From this dataset two additional are created by cropping characters out of its photos formatted as Street View House Numbers dataset. Dataset Mobile Nice Page Photos Characters contains readable characters and Mobile Page Photos Characters adds hardly readable and unreadable ones. Three models of convolutional nets are created and used for text recognition experiments on these datasets, which are also used for estimation of annotation error.
This thesis aims at creation of new datasets for text recognition machine learning tasks and experiments with convolutional neural networks on these datasets. It describes architecture of convolutional nets, difficulties of recognizing text from photographs and contemporary works using these networks. Next, creation of annotation, using Tesseract OCR, for dataset comprised from photos of document pages, taken by mobile phones, named Mobile Page Photos. From this dataset two additional are created by cropping characters out of its photos formatted as Street View House Numbers dataset. Dataset Mobile Nice Page Photos Characters contains readable characters and Mobile Page Photos Characters adds hardly readable and unreadable ones. Three models of convolutional nets are created and used for text recognition experiments on these datasets, which are also used for estimation of annotation error.
Description
Keywords
rozpoznávání textu z fotografií, anotace datové sady, tvorba datové sady, konvoluční neuronová síť, strojové učení, Caffe, Tesseract OCR, Street View House Numbers, Mobile Page Photos, Mobile Page Photos Characters, text recognition from photographs, dataset annotation, dataset creation, convolutional neural network, machine learning, Caffe, Tesseract OCR, Street View House Numbers, Mobile Page Photos, Mobile Page Photos Characters
Citation
CSÓKA, P. Rozpoznávání textu pomocí konvolučních sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2016.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Počítačová grafika a multimédia
Comittee
doc. Dr. Ing. Jan Černocký (předseda)
prof. Ing. Adam Herout, Ph.D. (místopředseda)
Ing. Vítězslav Beran, Ph.D. (člen)
doc. Dr. Ing. Dušan Kolář (člen)
Doc. RNDr. Pavel Matula, Ph.D. (člen)
prof. RNDr. Alexandr Meduna, CSc. (člen)
Date of acceptance
2016-06-17
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm velmi dobře. Otázky u obhajoby: Aký je rozdiel medzi validačnou a testovacou sadou? Prečo ste vo svojich experimentoch používali validačnú sadu ako testovaciu sadu? Rozmýšlali ste o tom extrahovať text priamo z PDF súborov namiesto použitia OCR na vyrendrovaný text? Prečo ste sa rozhodli práve pre použitie OCR?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení