Dělení textu do logických celků

Loading...
Thumbnail Image
Date
Authors
Kostelník, Martin
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Cílem projektu bylo vytvořit systém pro automatickou segmentaci textu do logických celků. Práce staví na systému PERO-OCR a cílí na zlepšení zpracovávání českých historických dokumentů a jejich vyhledávačů používaných knihovníky a vědci. Práce zahrnovala vytvoření a anotace vlastní datové sady složené celkem z 4044 stránek z knih, slovníků a novin. K problému segmentaci textu je přistoupeno inovativních přístupem, kdy je brán jako shlukovací problém jednotlivých řádků textu. Metoda je dvoufázová: nejprve probíhá detekce regionů textu pomocí modelu YOLOv8 a následuje jejich spojení grafovou neuronovou sítí. Vyhodnocení je provedeno pomocí shlukovací metriky V-measure a na testovacím datasetu dosahuje hodnot 77.93 % pro knihy, 95.79 % pro slovníky a 90.23 % pro noviny.
The goal of this project is the topic segmentation of text into coherent units. It builds on the PERO-OCR software, aiming to improve the processing of Czech historical documents and information retrieval for librarians and scientists. This included the creation and annotation of a custom dataset comprised of 4044 pages from books, dictionaries, and periodicals. I propose an innovative approach treating segmentation as a line clustering problem. The method involves a two-stage process: initial detection of regions of interest containing text lines using the YOLOv8 model, followed by joining them using a graph neural network. This method achieves a V-measure of 77.93 %, 95.79 % and 90.23 % for books, dictionaries and periodicals, respectively.
Description
Citation
KOSTELNÍK, M. Dělení textu do logických celků [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Strojové učení
Comittee
doc. Ing. Lukáš Burget, Ph.D. (předseda) doc. RNDr. Pavel Smrž, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) Ing. Vojtěch Mrázek, Ph.D. (člen)
Date of acceptance
2024-06-19
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO