Analýza struktury tabulek pomocí multimodálních transformerů

but.committeedoc. Ing. Lukáš Burget, Ph.D. (předseda) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorHradiš, Michalen
dc.contributor.authorVlach, Vojtěchen
dc.contributor.refereeKišš, Martinen
dc.date.created2025cs
dc.description.abstractTato práce se zabývá rozpoznáním struktury tabulek pro analýzu a rekonstrukci tabulek z vyfocených nebo skenovaných dokumentů. Práce představuje současné metody, rozšiřuje je a jejím výsledkem je systém pro rozpoznání tabulek. Konkrétně je použit systém rozpoznání písma (Optical Character Recognition - OCR) pro detekování a přepis jednotlivých slov. Struktura tabulky je tvořena pomocí matice sousedností reprezentující shlukové vztahy mezi slovy (shluky typu buňka, sloupec, řádek). Představená architektura je tvořena konvolučním předzpracováním, multimodálním transformerem, predikčními hlavami pro každý typ vztahu a algoritmem rekonstrukce tabulky. Architektura je funkční a je porovnatelná s referenční literaturou na datasetu PubTables-1M. Natrénované modely jsou také doladěné na novém datasetu HerritageTabNet s pozitivní změnou na obou datasetech.en
dc.description.abstractThis thesis introduces the topic of Table Structure Recognition (TSR), which is used to analyze and reconstruct scanned tables. Current methods are introduced and expanded upon to create a Table Structure Recognition system. First, the Optical Character Recognition (OCR) system detects and transcribes words. The table structure is created using adjacency matrices representing word relation classes (same cell, column clusters, row clusters). The proposed architecture consists of a CNN backbone, a multimodal decoder transformer, class-wise prediction heads, and post-processing table reconstruction algorithm. The architecture is proven to work and is comparable with refference literature on the PubTables-1M dataset. The trained models are also fine-tuned on a custom HerritageTabNet dataset with positive improvement on both datasets.cs
dc.description.markCcs
dc.identifier.citationVLACH, V. Analýza struktury tabulek pomocí multimodálních transformerů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other164704cs
dc.identifier.urihttp://hdl.handle.net/11012/255126
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectRozpozání struktury tabulkyen
dc.subjectdetekce tabuleken
dc.subjectanalýza struktury dokumentůen
dc.subjectmultimodální transformeren
dc.subjectpredikce vztahů sloven
dc.subjectoptické rozpoznávání písmaen
dc.subjecthluboké učeníen
dc.subjectpočítačové viděníen
dc.subjectTable Structure Recognitioncs
dc.subjectTable detectioncs
dc.subjectDocument Structure Analysiscs
dc.subjectMultimodal transformercs
dc.subjectWord relation predictioncs
dc.subjectOptical Character Recognitioncs
dc.subjectDeep learningcs
dc.subjectComputer visioncs
dc.titleAnalýza struktury tabulek pomocí multimodálních transformerůen
dc.title.alternativeTable Structure Recognition Using Multimodal Transformerscs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2025-06-26cs
dcterms.modified2025-06-26-16:13:13cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid164704en
sync.item.dbtypeZPen
sync.item.insts2025.08.27 02:04:39en
sync.item.modts2025.08.26 20:08:13en
thesis.disciplineStrojové učenícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
19.37 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_164704.html
Size:
9.36 KB
Format:
Hypertext Markup Language
Description:
file review_164704.html

Collections