Vytvoření jazykového modelu pro nákladově efektivní detekci pojmenovaných entit v textu

Stehlík, Jiří

Vytvoření jazykového modelu pro nákladově efektivní detekci pojmenovaných entit v textu

Files

final-thesis.pdf (3.1 MB)

review_161261.html (8.52 KB)

Authors

Stehlík, Jiří

Advisor

Smrž, Pavel

Referee

Dočekal, Martin

Mark

A

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Cílem této práce je vyvinout efektivní metodu pro detekci pojmenovaných entit v textu, zaměřenou konkrétně na identifikaci telefonních čísel a daňových identifikačních čísel. Pro identifikaci entit byly použity modely založené na architektuře BERT, které byly speciálně laděny. K trénování těchto modelů byla využita data poskytnutá firmou GenDigital, dále texty shromážděné z různých webových stránek a syntetické texty generované velkými jazykovými modely, jako je ChatGPT. Menší část tréninkových dat byla označena ručně, větší část pak pomocí jazykových modelů a nástroje PromptNER. Laděné modely dosahují F1 skóre až 0,945 na vytvořené testovací datové sadě, což je pouze o 0,018 nižší než nejlepší testovaný velký jazykový model, přičemž jsou minimálně 4,5krát levnější než použití tohoto modelu. Díky těmto modelům je možné efektivně zpracovávat libovolný text a vytvářet databáze telefonních čísel. Navíc je možné je spustit lokálně na slabších zařízeních, aniž by byla nutná akcelerace přes GPU.
The goal of this work is to develop an efficient method for detecting named entities in text, specifically focusing on the identification of phone numbers and tax identification numbers. For entity identification, models based on the BERT architecture were used, specially fine-tuned for this task. The training of these models utilized data provided by GenDigital, along with text collected from various websites, and synthetic texts generated using large language models such as ChatGPT. A smaller portion of the training data was manually labeled, while the larger portion was labeled using language models and the PromptNER tool. The fine-tuned models achieve an F1 score of up to 0.945 on the created test dataset, which is only 0.018 lower than the best-performing large language model tested, while being at least 4.5 times cheaper than using that model. These models enable efficient processing of any text and the creation of phone number databases. Additionally, they can be run locally on lower-end devices without the need for GPU acceleration,

Keywords

strojové učení , detekce pojmenovaných entit v textu , velké jazykové modely , neuronové sítě , BERT , transformery , detekce čísel , umělá inteligence , PromptNER , machine learning , named entity recognition , large language models , neural networks , BERT , transformers , number detection , artificial intelligence , PromptNER

Citation

STEHLÍK, J. Vytvoření jazykového modelu pro nákladově efektivní detekci pojmenovaných entit v textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

cs

Study field

Informační technologie

Comittee

prof. RNDr. Alexandr Meduna, CSc. (předseda) Ing. Martin Hrubý, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Marcela Zachariášová, Ph.D. (člen)

Date of acceptance

2025-06-20

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/254516

Collections

2025

Citace PRO

Full item page

Vytvoření jazykového modelu pro nákladově efektivní detekci pojmenovaných entit v textu

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO