Kdo je v novinách? Hledání lidí v historických novinách podle jména

but.committeedoc. RNDr. Pavel Smrž, Ph.D. (předseda) Ing. Michal Hradiš, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Tomáš Goldmann, Ph.D. (člen) Ing. Martin Žádník, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorVaško, Marekcs
dc.contributor.authorMrkva, Adamcs
dc.contributor.refereeHerout, Adamcs
dc.date.created2025cs
dc.description.abstractTato práce zkoumá využití velkých jazykových modelů k rozpoznávání pojmenovaných osob v českých historických textech. Na rozdíl od přístupů založených na klasifikaci tokenů vyžadujících velké množství trénovacích dat, tato práce zkoumá generativní přístup založený na metodě GPT-NER. Experimenty na různých datových sadách ukazují dobré výsledky. V rozpoznávání osob modely v českých textech dosahují F1 skóre přes 70% na moderních textech a až 50% na textech historických, což je u historických textů srovnatelné s referenč- ním modelem založeným na klasifikaci tokenů. Práce popisuje hlavní problémy při aplikaci na historické texty, zejména délku vět a nejednoznačnost hranic jmen, a navrhuje jejich ře- šení. Výsledky potvrzují potenciál generativního přístupu pro texty s omezeným množstvím trénovacích dat.cs
dc.description.abstractThis work examines the use of large language models for named entity recognition of persons in Czech historical texts. Unlike token classification approaches requiring large amounts of training data, this work implements a generative approach based on the GPT-NER method. Experiments on various datasets show promising results. In person recognition, the models achieve F1 scores over 70% on modern Czech texts and up to 50% on historical texts, which for historical texts is comparable to the reference token classification-based model. The thesis identifies key problems in application to historical texts, particularly sentence length and ambiguity in name boundaries, and proposes solutions. Results confirm the potential of the generative approach for texts with limited training data.en
dc.description.markBcs
dc.identifier.citationMRKVA, A. Kdo je v novinách? Hledání lidí v historických novinách podle jména [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other164222cs
dc.identifier.urihttp://hdl.handle.net/11012/253200
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectRozpoznávání pojmenovaných entitcs
dc.subjectNERcs
dc.subjectvelké jazykové modelycs
dc.subjectLLMcs
dc.subjecthistorické textycs
dc.subjectčeský jazykcs
dc.subjectGPT-NERcs
dc.subjectNamed entity recognitionen
dc.subjectNERen
dc.subjectlarge language modelen
dc.subjectLLMen
dc.subjecthistorical textsen
dc.subjectCzech languageen
dc.subjectGPT-NERen
dc.titleKdo je v novinách? Hledání lidí v historických novinách podle jménacs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2025-06-17cs
dcterms.modified2025-06-17-16:08:46cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid164222en
sync.item.dbtypeZPen
sync.item.insts2025.08.26 23:05:40en
sync.item.modts2025.08.26 19:53:15en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
1.25 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_164222.html
Size:
10.61 KB
Format:
Hypertext Markup Language
Description:
file review_164222.html

Collections