Analýza struktury tabulek pomocí multimodálních transformerů
| but.committee | doc. Ing. Lukáš Burget, Ph.D. (předseda) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) | cs |
| but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. | cs |
| but.jazyk | angličtina (English) | |
| but.program | Informační technologie a umělá inteligence | cs |
| but.result | práce byla úspěšně obhájena | cs |
| dc.contributor.advisor | Hradiš, Michal | en |
| dc.contributor.author | Vlach, Vojtěch | en |
| dc.contributor.referee | Kišš, Martin | en |
| dc.date.created | 2025 | cs |
| dc.description.abstract | Tato práce se zabývá rozpoznáním struktury tabulek pro analýzu a rekonstrukci tabulek z vyfocených nebo skenovaných dokumentů. Práce představuje současné metody, rozšiřuje je a jejím výsledkem je systém pro rozpoznání tabulek. Konkrétně je použit systém rozpoznání písma (Optical Character Recognition - OCR) pro detekování a přepis jednotlivých slov. Struktura tabulky je tvořena pomocí matice sousedností reprezentující shlukové vztahy mezi slovy (shluky typu buňka, sloupec, řádek). Představená architektura je tvořena konvolučním předzpracováním, multimodálním transformerem, predikčními hlavami pro každý typ vztahu a algoritmem rekonstrukce tabulky. Architektura je funkční a je porovnatelná s referenční literaturou na datasetu PubTables-1M. Natrénované modely jsou také doladěné na novém datasetu HerritageTabNet s pozitivní změnou na obou datasetech. | en |
| dc.description.abstract | This thesis introduces the topic of Table Structure Recognition (TSR), which is used to analyze and reconstruct scanned tables. Current methods are introduced and expanded upon to create a Table Structure Recognition system. First, the Optical Character Recognition (OCR) system detects and transcribes words. The table structure is created using adjacency matrices representing word relation classes (same cell, column clusters, row clusters). The proposed architecture consists of a CNN backbone, a multimodal decoder transformer, class-wise prediction heads, and post-processing table reconstruction algorithm. The architecture is proven to work and is comparable with refference literature on the PubTables-1M dataset. The trained models are also fine-tuned on a custom HerritageTabNet dataset with positive improvement on both datasets. | cs |
| dc.description.mark | C | cs |
| dc.identifier.citation | VLACH, V. Analýza struktury tabulek pomocí multimodálních transformerů [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025. | cs |
| dc.identifier.other | 164704 | cs |
| dc.identifier.uri | http://hdl.handle.net/11012/255126 | |
| dc.language.iso | en | cs |
| dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
| dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
| dc.subject | Rozpozání struktury tabulky | en |
| dc.subject | detekce tabulek | en |
| dc.subject | analýza struktury dokumentů | en |
| dc.subject | multimodální transformer | en |
| dc.subject | predikce vztahů slov | en |
| dc.subject | optické rozpoznávání písma | en |
| dc.subject | hluboké učení | en |
| dc.subject | počítačové vidění | en |
| dc.subject | Table Structure Recognition | cs |
| dc.subject | Table detection | cs |
| dc.subject | Document Structure Analysis | cs |
| dc.subject | Multimodal transformer | cs |
| dc.subject | Word relation prediction | cs |
| dc.subject | Optical Character Recognition | cs |
| dc.subject | Deep learning | cs |
| dc.subject | Computer vision | cs |
| dc.title | Analýza struktury tabulek pomocí multimodálních transformerů | en |
| dc.title.alternative | Table Structure Recognition Using Multimodal Transformers | cs |
| dc.type | Text | cs |
| dc.type.driver | masterThesis | en |
| dc.type.evskp | diplomová práce | cs |
| dcterms.dateAccepted | 2025-06-26 | cs |
| dcterms.modified | 2025-06-26-16:13:13 | cs |
| eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
| sync.item.dbid | 164704 | en |
| sync.item.dbtype | ZP | en |
| sync.item.insts | 2025.08.27 02:04:39 | en |
| sync.item.modts | 2025.08.26 20:08:13 | en |
| thesis.discipline | Strojové učení | cs |
| thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
| thesis.level | Inženýrský | cs |
| thesis.name | Ing. | cs |
