Kdo je v novinách? Hledání lidí v historických novinách podle jména

Mrkva, Adam

Kdo je v novinách? Hledání lidí v historických novinách podle jména

Files

final-thesis.pdf (1.25 MB)

review_164222.html (10.61 KB)

Authors

Mrkva, Adam

Advisor

Vaško, Marek

Referee

Herout, Adam

Mark

B

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato práce zkoumá využití velkých jazykových modelů k rozpoznávání pojmenovaných osob v českých historických textech. Na rozdíl od přístupů založených na klasifikaci tokenů vyžadujících velké množství trénovacích dat, tato práce zkoumá generativní přístup založený na metodě GPT-NER. Experimenty na různých datových sadách ukazují dobré výsledky. V rozpoznávání osob modely v českých textech dosahují F1 skóre přes 70% na moderních textech a až 50% na textech historických, což je u historických textů srovnatelné s referenč- ním modelem založeným na klasifikaci tokenů. Práce popisuje hlavní problémy při aplikaci na historické texty, zejména délku vět a nejednoznačnost hranic jmen, a navrhuje jejich ře- šení. Výsledky potvrzují potenciál generativního přístupu pro texty s omezeným množstvím trénovacích dat.
This work examines the use of large language models for named entity recognition of persons in Czech historical texts. Unlike token classification approaches requiring large amounts of training data, this work implements a generative approach based on the GPT-NER method. Experiments on various datasets show promising results. In person recognition, the models achieve F1 scores over 70% on modern Czech texts and up to 50% on historical texts, which for historical texts is comparable to the reference token classification-based model. The thesis identifies key problems in application to historical texts, particularly sentence length and ambiguity in name boundaries, and proposes solutions. Results confirm the potential of the generative approach for texts with limited training data.

Keywords

Rozpoznávání pojmenovaných entit , NER , velké jazykové modely , LLM , historické texty , český jazyk , GPT-NER , Named entity recognition , NER , large language model , LLM , historical texts , Czech language , GPT-NER

Citation

MRKVA, A. Kdo je v novinách? Hledání lidí v historických novinách podle jména [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

cs

Study field

Informační technologie

Comittee

doc. RNDr. Pavel Smrž, Ph.D. (předseda) Ing. Michal Hradiš, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Tomáš Goldmann, Ph.D. (člen) Ing. Martin Žádník, Ph.D. (člen)

Date of acceptance

2025-06-17

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/253200

Collections

2025

Citace PRO

Full item page

Kdo je v novinách? Hledání lidí v historických novinách podle jména

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO