Extrakce informací z formulářů pomocí neuronových sítí

Kaska, Karel

Extrakce informací z formulářů pomocí neuronových sítí

Files

final-thesis.pdf (15 MB)

review_164602.html (10.09 KB)

Authors

Kaska, Karel

Advisor

Kostelník, Martin

Referee

Kohút, Jan

Mark

C

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Cílem této bakalářské práce bylo prozkoumat možnost extrakce informací z formulářů s pomocí neuronových sítí. Práce začíná pokrytím teorie o zpracování přirozeného jazyka. Poté následuje přehled extrakce informací a popis rozpoznávání pojmenovaných entit. Na to dále navazuje představení datových sad, které jsou relevantní pro formuláře. V implementační části je popsán proces vytváření nové datové sady formulářů. Také je popsána příprava skriptů pro doladění modelů pro rozpoznávání pojmenovaných entit. Doladěné modely obsahují pouze textové modely jako například Czert, stejně jako modely s ohledem na rozvržení textu na straně jako například LiLT. Konečná kapitola obsahuje část s experimenty, která obsahuje experimenty s modely laděné pro rozpoznávání pojmenovaných entit na formulářích.
The goal of this bachelor's thesis was to explore the possibility of information extraction from form-like documents using neural networks. The work starts by covering the theory of natural language representation. Then comes an overview of information extraction and the description of Named Entity Recognition. After that follows an introduction to existing datasets that are relevant to forms. In the implementation part, the process of creating a new form dataset is laid out. The preparation of the scripts for fine-tuning the models for named entity recognition is also described. The fine-tuned models include text-only models such as Czert as well as layout-aware models such as LiLT. In the end comes the experimental part, which includes experimenting with the Named Entity Recognition fine-tuned models on forms.

Keywords

BERT , extrakce informací , Rozpoznávání pojmenovaných entit , transformers , NER dataset , Czert , Robeczech , Umělá inteligence , BERT , Information Extraction , Named Entity Recognition , Transformers , NER Dataset , Czert , Robeczech , Artificial intelligence

Citation

KASKA, K. Extrakce informací z formulářů pomocí neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

en

Study field

Informační technologie

Comittee

prof. Ing. Adam Herout, Ph.D. (předseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen)

Date of acceptance

2025-06-16

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/252809

Collections

2025

Citace PRO

Full item page

Extrakce informací z formulářů pomocí neuronových sítí

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO