Dělení textu do logických celků
but.committee | doc. Ing. Lukáš Burget, Ph.D. (předseda) doc. RNDr. Pavel Smrž, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) Ing. Vojtěch Mrázek, Ph.D. (člen) | cs |
but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. | cs |
but.jazyk | angličtina (English) | |
but.program | Informační technologie a umělá inteligence | cs |
but.result | práce byla úspěšně obhájena | cs |
dc.contributor.advisor | Beneš, Karel | en |
dc.contributor.author | Kostelník, Martin | en |
dc.contributor.referee | Kišš, Martin | en |
dc.date.created | 2024 | cs |
dc.description.abstract | Cílem projektu bylo vytvořit systém pro automatickou segmentaci textu do logických celků. Práce staví na systému PERO-OCR a cílí na zlepšení zpracovávání českých historických dokumentů a jejich vyhledávačů používaných knihovníky a vědci. Práce zahrnovala vytvoření a anotace vlastní datové sady složené celkem z 4044 stránek z knih, slovníků a novin. K problému segmentaci textu je přistoupeno inovativních přístupem, kdy je brán jako shlukovací problém jednotlivých řádků textu. Metoda je dvoufázová: nejprve probíhá detekce regionů textu pomocí modelu YOLOv8 a následuje jejich spojení grafovou neuronovou sítí. Vyhodnocení je provedeno pomocí shlukovací metriky V-measure a na testovacím datasetu dosahuje hodnot 77.93 % pro knihy, 95.79 % pro slovníky a 90.23 % pro noviny. | en |
dc.description.abstract | The goal of this project is the topic segmentation of text into coherent units. It builds on the PERO-OCR software, aiming to improve the processing of Czech historical documents and information retrieval for librarians and scientists. This included the creation and annotation of a custom dataset comprised of 4044 pages from books, dictionaries, and periodicals. I propose an innovative approach treating segmentation as a line clustering problem. The method involves a two-stage process: initial detection of regions of interest containing text lines using the YOLOv8 model, followed by joining them using a graph neural network. This method achieves a V-measure of 77.93 %, 95.79 % and 90.23 % for books, dictionaries and periodicals, respectively. | cs |
dc.description.mark | A | cs |
dc.identifier.citation | KOSTELNÍK, M. Dělení textu do logických celků [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024. | cs |
dc.identifier.other | 155569 | cs |
dc.identifier.uri | http://hdl.handle.net/11012/248909 | |
dc.language.iso | en | cs |
dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
dc.subject | segmentace textu | en |
dc.subject | strojové učení | en |
dc.subject | optické rozpoznávání znaků | en |
dc.subject | OCR | en |
dc.subject | jazykové modely | en |
dc.subject | grafové neuronové sítě | en |
dc.subject | detekce objektů | en |
dc.subject | BERT | en |
dc.subject | YOLOv8 | en |
dc.subject | historické dokumenty | en |
dc.subject | text segmentation | cs |
dc.subject | machine learning | cs |
dc.subject | optical character recognition | cs |
dc.subject | OCR | cs |
dc.subject | language models | cs |
dc.subject | graph neural networks | cs |
dc.subject | object detection | cs |
dc.subject | BERT | cs |
dc.subject | YOLOv8 | cs |
dc.subject | historical documents | cs |
dc.title | Dělení textu do logických celků | en |
dc.title.alternative | Segmentation of logical units in text | cs |
dc.type | Text | cs |
dc.type.driver | masterThesis | en |
dc.type.evskp | diplomová práce | cs |
dcterms.dateAccepted | 2024-06-19 | cs |
dcterms.modified | 2024-06-19-10:13:27 | cs |
eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
sync.item.dbid | 155569 | en |
sync.item.dbtype | ZP | en |
sync.item.insts | 2025.03.26 15:38:18 | en |
sync.item.modts | 2025.01.15 13:24:52 | en |
thesis.discipline | Strojové učení | cs |
thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
thesis.level | Inženýrský | cs |
thesis.name | Ing. | cs |