Kdo je v novinách? Hledání lidí v historických novinách podle jména
Loading...
Date
Authors
Mrkva, Adam
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato práce zkoumá využití velkých jazykových modelů k rozpoznávání pojmenovaných osob v českých historických textech. Na rozdíl od přístupů založených na klasifikaci tokenů vyžadujících velké množství trénovacích dat, tato práce zkoumá generativní přístup založený na metodě GPT-NER. Experimenty na různých datových sadách ukazují dobré výsledky. V rozpoznávání osob modely v českých textech dosahují F1 skóre přes 70% na moderních textech a až 50% na textech historických, což je u historických textů srovnatelné s referenč- ním modelem založeným na klasifikaci tokenů. Práce popisuje hlavní problémy při aplikaci na historické texty, zejména délku vět a nejednoznačnost hranic jmen, a navrhuje jejich ře- šení. Výsledky potvrzují potenciál generativního přístupu pro texty s omezeným množstvím trénovacích dat.
This work examines the use of large language models for named entity recognition of persons in Czech historical texts. Unlike token classification approaches requiring large amounts of training data, this work implements a generative approach based on the GPT-NER method. Experiments on various datasets show promising results. In person recognition, the models achieve F1 scores over 70% on modern Czech texts and up to 50% on historical texts, which for historical texts is comparable to the reference token classification-based model. The thesis identifies key problems in application to historical texts, particularly sentence length and ambiguity in name boundaries, and proposes solutions. Results confirm the potential of the generative approach for texts with limited training data.
This work examines the use of large language models for named entity recognition of persons in Czech historical texts. Unlike token classification approaches requiring large amounts of training data, this work implements a generative approach based on the GPT-NER method. Experiments on various datasets show promising results. In person recognition, the models achieve F1 scores over 70% on modern Czech texts and up to 50% on historical texts, which for historical texts is comparable to the reference token classification-based model. The thesis identifies key problems in application to historical texts, particularly sentence length and ambiguity in name boundaries, and proposes solutions. Results confirm the potential of the generative approach for texts with limited training data.
Description
Keywords
Citation
MRKVA, A. Kdo je v novinách? Hledání lidí v historických novinách podle jména [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. RNDr. Pavel Smrž, Ph.D. (předseda)
Ing. Michal Hradiš, Ph.D. (člen)
RNDr. Marek Rychlý, Ph.D. (člen)
Ing. Tomáš Goldmann, Ph.D. (člen)
Ing. Martin Žádník, Ph.D. (člen)
Date of acceptance
2025-06-17
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
