Kdo je v novinách? Hledání lidí v historických novinách podle jména

Loading...
Thumbnail Image

Date

Authors

Mrkva, Adam

Mark

B

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce zkoumá využití velkých jazykových modelů k rozpoznávání pojmenovaných osob v českých historických textech. Na rozdíl od přístupů založených na klasifikaci tokenů vyžadujících velké množství trénovacích dat, tato práce zkoumá generativní přístup založený na metodě GPT-NER. Experimenty na různých datových sadách ukazují dobré výsledky. V rozpoznávání osob modely v českých textech dosahují F1 skóre přes 70% na moderních textech a až 50% na textech historických, což je u historických textů srovnatelné s referenč- ním modelem založeným na klasifikaci tokenů. Práce popisuje hlavní problémy při aplikaci na historické texty, zejména délku vět a nejednoznačnost hranic jmen, a navrhuje jejich ře- šení. Výsledky potvrzují potenciál generativního přístupu pro texty s omezeným množstvím trénovacích dat.
This work examines the use of large language models for named entity recognition of persons in Czech historical texts. Unlike token classification approaches requiring large amounts of training data, this work implements a generative approach based on the GPT-NER method. Experiments on various datasets show promising results. In person recognition, the models achieve F1 scores over 70% on modern Czech texts and up to 50% on historical texts, which for historical texts is comparable to the reference token classification-based model. The thesis identifies key problems in application to historical texts, particularly sentence length and ambiguity in name boundaries, and proposes solutions. Results confirm the potential of the generative approach for texts with limited training data.

Description

Citation

MRKVA, A. Kdo je v novinách? Hledání lidí v historických novinách podle jména [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

cs

Study field

Informační technologie

Comittee

doc. RNDr. Pavel Smrž, Ph.D. (předseda) Ing. Michal Hradiš, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Tomáš Goldmann, Ph.D. (člen) Ing. Martin Žádník, Ph.D. (člen)

Date of acceptance

2025-06-17

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO