Dělení textu do logických celků

but.committeedoc. Ing. Lukáš Burget, Ph.D. (předseda) doc. RNDr. Pavel Smrž, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) Ing. Vojtěch Mrázek, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBeneš, Karelen
dc.contributor.authorKostelník, Martinen
dc.contributor.refereeKišš, Martinen
dc.date.created2024cs
dc.description.abstractCílem projektu bylo vytvořit systém pro automatickou segmentaci textu do logických celků. Práce staví na systému PERO-OCR a cílí na zlepšení zpracovávání českých historických dokumentů a jejich vyhledávačů používaných knihovníky a vědci. Práce zahrnovala vytvoření a anotace vlastní datové sady složené celkem z 4044 stránek z knih, slovníků a novin. K problému segmentaci textu je přistoupeno inovativních přístupem, kdy je brán jako shlukovací problém jednotlivých řádků textu. Metoda je dvoufázová: nejprve probíhá detekce regionů textu pomocí modelu YOLOv8 a následuje jejich spojení grafovou neuronovou sítí. Vyhodnocení je provedeno pomocí shlukovací metriky V-measure a na testovacím datasetu dosahuje hodnot 77.93 % pro knihy, 95.79 % pro slovníky a 90.23 % pro noviny.en
dc.description.abstractThe goal of this project is the topic segmentation of text into coherent units. It builds on the PERO-OCR software, aiming to improve the processing of Czech historical documents and information retrieval for librarians and scientists. This included the creation and annotation of a custom dataset comprised of 4044 pages from books, dictionaries, and periodicals. I propose an innovative approach treating segmentation as a line clustering problem. The method involves a two-stage process: initial detection of regions of interest containing text lines using the YOLOv8 model, followed by joining them using a graph neural network. This method achieves a V-measure of 77.93 %, 95.79 % and 90.23 % for books, dictionaries and periodicals, respectively.cs
dc.description.markAcs
dc.identifier.citationKOSTELNÍK, M. Dělení textu do logických celků [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.cs
dc.identifier.other155569cs
dc.identifier.urihttp://hdl.handle.net/11012/248909
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectsegmentace textuen
dc.subjectstrojové učeníen
dc.subjectoptické rozpoznávání znakůen
dc.subjectOCRen
dc.subjectjazykové modelyen
dc.subjectgrafové neuronové sítěen
dc.subjectdetekce objektůen
dc.subjectBERTen
dc.subjectYOLOv8en
dc.subjecthistorické dokumentyen
dc.subjecttext segmentationcs
dc.subjectmachine learningcs
dc.subjectoptical character recognitioncs
dc.subjectOCRcs
dc.subjectlanguage modelscs
dc.subjectgraph neural networkscs
dc.subjectobject detectioncs
dc.subjectBERTcs
dc.subjectYOLOv8cs
dc.subjecthistorical documentscs
dc.titleDělení textu do logických celkůen
dc.title.alternativeSegmentation of logical units in textcs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2024-06-19cs
dcterms.modified2024-06-19-10:13:27cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid155569en
sync.item.dbtypeZPen
sync.item.insts2025.03.26 15:38:18en
sync.item.modts2025.01.15 13:24:52en
thesis.disciplineStrojové učenícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
3.59 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_155569.html
Size:
9.49 KB
Format:
Hypertext Markup Language
Description:
file review_155569.html
Collections