Rozpoznávání historických textů pomocí hlubokých neuronových sítí

but.committeeprof. Ing. Adam Herout, Ph.D. (předseda) doc. Ing. Vladimír Drábek, CSc. (místopředseda) Ing. Jaroslav Rozman, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) doc. Ing. Michal Španěl, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm " A ". Otázky u obhajoby: Jak by jste v práci využil dostupný jazykový model? Jaký má vliv konstanta 10000 na rovnice pozičního kódování 3.23? Jakými mechanismy je možné pracovat s proměnlivou délkou sekvencí?cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorKišš, Martincs
dc.contributor.authorVešelíny, Petercs
dc.contributor.refereeKolář, Martincs
dc.date.created2019cs
dc.description.abstractTáto práca sa zaoberá rozpoznávaním riadkov z historických textov. Historické texty pochádzajú z obdobia od 17. až 19 storočia a sú napísané pomocou fraktúry. Pri rozpoznávaní písma sa používa architektúra neurónovej siete zvaná sequence-to-sequence . Táto architektúra vychádza z modelu kodér-dekodér a používa mechanizmus attention . V rámci práce bola z textov, pochádzajúcich z archívu Deutsches Textarchiv , vytvorená dátová sada. Tento archív obsahuje 3 897 rôznych nemeckých diel, ku ktorým sú dostupné snímky strán a ich prepisy. Vytvorená dátová sada sa následne používa pri trénovaní a experimentovaní s neurónovou sieťou. V rámci experimentov sú skúmané rôzne modely konvolučných sietí, vplyv hyperparametrov siete a účinok pozičného kódovania na výsledky rozpoznávania. Výsledný model dokáže rozpoznať znaky s presnosťou 99,63 %. Prínosom tejto práce je spomínaná dátová sada a neurónová sieť, ktorá sa môže použivať pri rozpoznávaní historických dokumentov.cs
dc.description.abstractThis thesis deals with text line recognition of historical documents. Historical texts dating back to the 17th - 19th centuries are written in fraktur typeface. The character recognition problem is solved using neural network architecture called sequence-to-sequence . This architecture is based on encoder-decoder model and contains attention mechanism. In this thesis a dataset, from texts originated from German archiv called Deutsches Textarchiv , was created. This archive contains 3 897 different German books that have available transcripts and corresponding images of pages. The created dataset was used to train and experiment with the proposed neural network. During the experiments, several convolutional models, hyperparameters and the effects of positional embedding were investigated. The final tool can recognize characters with accuracy 99,63 %. The contribution of this work is the~mentioned dataset and neural network, which can be used to recognize historical documents.en
dc.description.markAcs
dc.identifier.citationVEŠELÍNY, P. Rozpoznávání historických textů pomocí hlubokých neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2019.cs
dc.identifier.other121913cs
dc.identifier.urihttp://hdl.handle.net/11012/180582
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectrozpoznávanie textucs
dc.subjecthistorický textcs
dc.subjectneurónová sieťcs
dc.subjectOCRcs
dc.subjectkonvolučná neurónová sieťcs
dc.subjectCNNcs
dc.subjectrekurentná neurónová sieťcs
dc.subjectRNNcs
dc.subjectseq2seqcs
dc.subjectkodércs
dc.subjectdekodércs
dc.subjectattentioncs
dc.subjecttext recognitionen
dc.subjecthistorical texten
dc.subjectneural networken
dc.subjectOCRen
dc.subjectconvolutional neural networken
dc.subjectCNNen
dc.subjectrecurrent neural networken
dc.subjectRNNen
dc.subjectseq2seqen
dc.subjectencoderen
dc.subjectdecoderen
dc.subjectattentionen
dc.titleRozpoznávání historických textů pomocí hlubokých neuronových sítícs
dc.title.alternativeConvolutional Networks for Historic Text Recognitionen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2019-06-13cs
dcterms.modified2019-09-02-09:04:31cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid121913en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 19:26:49en
sync.item.modts2025.01.15 17:00:25en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
11.25 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-21411_v.pdf
Size:
85.82 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-21411_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-21411_o.pdf
Size:
89.17 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-21411_o.pdf
Loading...
Thumbnail Image
Name:
review_121913.html
Size:
1.47 KB
Format:
Hypertext Markup Language
Description:
file review_121913.html
Collections