Automatizovaná extrakce strukturovaných dat dokumentů

but.committeeprof. Dr. Ing. Jan Černocký (předseda) Ing. Ivana Burgetová, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen) doc. RNDr. Dana Hliněná, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně anotování vstupních dat, přípravy instrukcí k anotaci, souhrnu objemu vlastní práce ohledně anotace či zhodnocení dosažených výsledků. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B - velmi dobře.cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorKohút, Jancs
dc.contributor.authorKřivánek, Jakubcs
dc.contributor.refereeVaško, Marekcs
dc.date.created2024cs
dc.description.abstractTato bakalářská práce řeší problém získávání strukturovaných dat ze skenů dokumentů českých knihoven. Cílem práce je usnadnit časově náročný manuální proces knihovníkům. Zaměřil jsem se vytvoření datových sad z dokumentů českých knihoven a na detekci metadat na těchto datasetech. Datové sady jsem vytvořil pro knihy a druhou pro periodika. Detekce byla realizována způsoben klasifikace řádků přečtených z dokumentů. Pro to jsou použita plně propojená neuronoví síť a síť využívající Transformer Encoder. Druhý způsob detekce metadat je založen na detekci objektů na skenech dokumentů pomocí modelu YOLOv8. Detekce pomocí plně propojené neuronové sítě dosahuje F1 skóre 0,83 na datasetu knih a 0,78 na datasetu periodik. F1 skóre sítě s Transformer Encoder dosahuje hodnot 0,84 na datasetu knih a 0,59 na datasetu periodik. Model YOLO dosahuje F1 skóre 0,86 (confidece na 0,549) na datasetu knih a 0,7 (confidence na 0,336) na datasetu periodik.cs
dc.description.abstractThis Bachelor thesis addresses the problem of extracting structured data from scans of documents from Czech libraries. The aim of the thesis is to simplify the time-consuming manual process for librarians. I focused on creating datasets from documents of Czech libraries and on detecting metadata on these datasets. I created one dataset for books and another for periodicals. Detection was performed by classifying lines read from the documents. This utilized a fully connected neural network and a network employing a Transformer Encoder. The second method of metadata detection is based on object detection in document scans using the YOLOv8 model. Detection using the fully connected neural network achieves an F1 score of 0.83 on the book dataset and 0.78 on the periodicals dataset. The Transformer Encoder network achieves F1 scores of 0.84 on the book dataset and 0.59 on the periodicals dataset. The YOLO model achieves an F1 score of 0.86 (confidence at 0.549) on the book dataset and 0.7 (confidence at 0.336) on the periodicals dataset.en
dc.description.markBcs
dc.identifier.citationKŘIVÁNEK, J. Automatizovaná extrakce strukturovaných dat dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.cs
dc.identifier.other155520cs
dc.identifier.urihttp://hdl.handle.net/11012/246595
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectautomatická extrakce metadatcs
dc.subjectmetadatacs
dc.subjectklasifikace dat dokumentůcs
dc.subjectzpracování dokumentůcs
dc.subjectneuronové sítěcs
dc.subjectYOLOcs
dc.subjectTransformer Encodercs
dc.subjectautomatic metadata extractionen
dc.subjectmetadataen
dc.subjectdocument data classificationen
dc.subjectdocument processingen
dc.subjectneural networksen
dc.subjectYOLOen
dc.subjectTransformer Encoderen
dc.titleAutomatizovaná extrakce strukturovaných dat dokumentůcs
dc.title.alternativeAutomated Metadata Extraction From Document Imagesen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2024-06-10cs
dcterms.modified2024-06-17-08:45:30cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid155520en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 21:01:01en
sync.item.modts2025.01.15 12:16:11en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
13.2 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_155520.html
Size:
9.64 KB
Format:
Hypertext Markup Language
Description:
file review_155520.html
Collections