Automatizovaná extrakce strukturovaných dat dokumentů
but.committee | prof. Dr. Ing. Jan Černocký (předseda) Ing. Ivana Burgetová, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen) doc. RNDr. Dana Hliněná, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně anotování vstupních dat, přípravy instrukcí k anotaci, souhrnu objemu vlastní práce ohledně anotace či zhodnocení dosažených výsledků. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B - velmi dobře. | cs |
but.jazyk | čeština (Czech) | |
but.program | Informační technologie | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Kohút, Jan | cs |
dc.contributor.author | Křivánek, Jakub | cs |
dc.contributor.referee | Vaško, Marek | cs |
dc.date.created | 2024 | cs |
dc.description.abstract | Tato bakalářská práce řeší problém získávání strukturovaných dat ze skenů dokumentů českých knihoven. Cílem práce je usnadnit časově náročný manuální proces knihovníkům. Zaměřil jsem se vytvoření datových sad z dokumentů českých knihoven a na detekci metadat na těchto datasetech. Datové sady jsem vytvořil pro knihy a druhou pro periodika. Detekce byla realizována způsoben klasifikace řádků přečtených z dokumentů. Pro to jsou použita plně propojená neuronoví síť a síť využívající Transformer Encoder. Druhý způsob detekce metadat je založen na detekci objektů na skenech dokumentů pomocí modelu YOLOv8. Detekce pomocí plně propojené neuronové sítě dosahuje F1 skóre 0,83 na datasetu knih a 0,78 na datasetu periodik. F1 skóre sítě s Transformer Encoder dosahuje hodnot 0,84 na datasetu knih a 0,59 na datasetu periodik. Model YOLO dosahuje F1 skóre 0,86 (confidece na 0,549) na datasetu knih a 0,7 (confidence na 0,336) na datasetu periodik. | cs |
dc.description.abstract | This Bachelor thesis addresses the problem of extracting structured data from scans of documents from Czech libraries. The aim of the thesis is to simplify the time-consuming manual process for librarians. I focused on creating datasets from documents of Czech libraries and on detecting metadata on these datasets. I created one dataset for books and another for periodicals. Detection was performed by classifying lines read from the documents. This utilized a fully connected neural network and a network employing a Transformer Encoder. The second method of metadata detection is based on object detection in document scans using the YOLOv8 model. Detection using the fully connected neural network achieves an F1 score of 0.83 on the book dataset and 0.78 on the periodicals dataset. The Transformer Encoder network achieves F1 scores of 0.84 on the book dataset and 0.59 on the periodicals dataset. The YOLO model achieves an F1 score of 0.86 (confidence at 0.549) on the book dataset and 0.7 (confidence at 0.336) on the periodicals dataset. | en |
dc.description.mark | B | cs |
dc.identifier.citation | KŘIVÁNEK, J. Automatizovaná extrakce strukturovaných dat dokumentů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024. | cs |
dc.identifier.other | 155520 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/246595 | |
dc.language.iso | cs | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | automatická extrakce metadat | cs |
dc.subject | metadata | cs |
dc.subject | klasifikace dat dokumentů | cs |
dc.subject | zpracování dokumentů | cs |
dc.subject | neuronové sítě | cs |
dc.subject | YOLO | cs |
dc.subject | Transformer Encoder | cs |
dc.subject | automatic metadata extraction | en |
dc.subject | metadata | en |
dc.subject | document data classification | en |
dc.subject | document processing | en |
dc.subject | neural networks | en |
dc.subject | YOLO | en |
dc.subject | Transformer Encoder | en |
dc.title | Automatizovaná extrakce strukturovaných dat dokumentů | cs |
dc.title.alternative | Automated Metadata Extraction From Document Images | en |
dc.type | Text | cs |
dc.type.driver | bachelorThesis | en |
dc.type.evskp | bakalářská práce | cs |
dcterms.dateAccepted | 2024-06-10 | cs |
dcterms.modified | 2024-06-17-08:45:30 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 155520 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.18 21:01:01 | en |
sync.item.modts | 2025.01.15 12:16:11 | en |
thesis.discipline | Informační technologie | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Bakalářský | cs |
thesis.name | Bc. | cs |