Analýza rozložení textu v historických dokumentech

but.committeedoc. Dr. Ing. Jan Černocký (předseda) prof. Ing. Adam Herout, Ph.D. (místopředseda) Ing. David Bařina, Ph.D. (člen) Ing. Vítězslav Beran, Ph.D. (člen) Ing. Ondřej Lengál, Ph.D. (člen) prof. Dr. Ing. Pavel Zemčík (člen)cs
but.defenceStudentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm B. Otázky u obhajoby: Detekce odstavců se trénuje a vyhodnocuje na celých snímcích? Jaké je rozlišení? Jak dobře systém funguje v porovnání s něčím existujícím (Transkribus, PERO, ABBYY, Tesseract)? Jak jsou velká slova vůči rozlišení výstupu backbone sítě? Využila jste předtrénovanou síť?cs
but.jazykčeština (Czech)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorKodym, Oldřichcs
dc.contributor.authorPalacková, Biancacs
dc.contributor.refereeHradiš, Michalcs
dc.date.accessioned2021-06-25T07:55:36Z
dc.date.available2021-06-25T07:55:36Z
dc.date.created2021cs
dc.description.abstractCieľom tejto diplomovej práce je navrhnúť a implementovať algoritmus na analýzu rozloženia textu v historických dokumentoch. Pri riešení tohto problému bola využitá neurónová sieť, konkrétne architektúra Faster-RCNN. Na trénovanie a otestovanie algortimu bol využitý dataset so 6 135 obrázkami dobových novín. V rámci práce boli natrénované 4 modely neurónových sietí: model na detekciu slov, nadpisov, textových regiónov a model detekujúci slová na základe ich polohy v riadku. Výstupy z týchto sietí boli vhodne spracované, s cieľom detekovať rozloženie textu na vstupnom obrázku. Na evaluáciu bola použitá upravená metrika F-score, na základe ktorej algoritmus dosiahol presnosť takmer 80 %. cs
dc.description.abstractThe goal of this thesis is to design and implement algorithm for text layout analysis in historical documents. Neural network was used to solve this problem, specifically architecture Faster-RCNN. Dataset of 6 135 images with historical newspaper was used for training and testing. For purpose of the thesis four models of neural networks were trained: model for detection of words, headings, text regions and model for words detection based on position in line. Outputs from these models were processed in order to determine text layout in input image. A modified F-score metric was used for the evaluation. Based on this metric, the algorithm reached an accuracy almost 80 %.en
dc.description.markBcs
dc.identifier.citationPALACKOVÁ, B. Analýza rozložení textu v historických dokumentech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2021.cs
dc.identifier.other136770cs
dc.identifier.urihttp://hdl.handle.net/11012/200146
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectanalýza rozloženia textu v dokumentochcs
dc.subjectneurónové sietecs
dc.subjectFaster-RCNNcs
dc.subjectPythoncs
dc.subjectspracovanie obrazucs
dc.subjectdocument layout analysisen
dc.subjectneural networksen
dc.subjectFaster-RCNNen
dc.subjectPythonen
dc.subjectimage processingen
dc.titleAnalýza rozložení textu v historických dokumentechcs
dc.title.alternativeText Layout Analysis in Historical Documentsen
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2021-06-24cs
dcterms.modified2021-09-01-13:10:32cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid136770en
sync.item.dbtypeZPen
sync.item.insts2021.11.12 22:14:58en
sync.item.modts2021.11.12 20:57:09en
thesis.disciplinePočítačové viděnícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
12.15 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-23653_v.pdf
Size:
85.64 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-23653_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-23653_o.pdf
Size:
88.99 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-23653_o.pdf
Loading...
Thumbnail Image
Name:
review_136770.html
Size:
1.45 KB
Format:
Hypertext Markup Language
Description:
review_136770.html
Collections