Analýza struktury tabulek pomocí multimodálních transformerů

Loading...
Thumbnail Image

Date

Authors

Vlach, Vojtěch

Mark

C

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce se zabývá rozpoznáním struktury tabulek pro analýzu a rekonstrukci tabulek z vyfocených nebo skenovaných dokumentů. Práce představuje současné metody, rozšiřuje je a jejím výsledkem je systém pro rozpoznání tabulek. Konkrétně je použit systém rozpoznání písma (Optical Character Recognition - OCR) pro detekování a přepis jednotlivých slov. Struktura tabulky je tvořena pomocí matice sousedností reprezentující shlukové vztahy mezi slovy (shluky typu buňka, sloupec, řádek). Představená architektura je tvořena konvolučním předzpracováním, multimodálním transformerem, predikčními hlavami pro každý typ vztahu a algoritmem rekonstrukce tabulky. Architektura je funkční a je porovnatelná s referenční literaturou na datasetu PubTables-1M. Natrénované modely jsou také doladěné na novém datasetu HerritageTabNet s pozitivní změnou na obou datasetech.
This thesis introduces the topic of Table Structure Recognition (TSR), which is used to analyze and reconstruct scanned tables. Current methods are introduced and expanded upon to create a Table Structure Recognition system. First, the Optical Character Recognition (OCR) system detects and transcribes words. The table structure is created using adjacency matrices representing word relation classes (same cell, column clusters, row clusters). The proposed architecture consists of a CNN backbone, a multimodal decoder transformer, class-wise prediction heads, and post-processing table reconstruction algorithm. The architecture is proven to work and is comparable with refference literature on the PubTables-1M dataset. The trained models are also fine-tuned on a custom HerritageTabNet dataset with positive improvement on both datasets.

Description

Citation

VLACH, V. Analýza struktury tabulek pomocí multimodálních transformerů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Strojové učení

Comittee

doc. Ing. Lukáš Burget, Ph.D. (předseda) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)

Date of acceptance

2025-06-26

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO