Vytvoření jazykového modelu pro nákladově efektivní detekci pojmenovaných entit v textu
Loading...
Date
Authors
Stehlík, Jiří
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Cílem této práce je vyvinout efektivní metodu pro detekci pojmenovaných entit v textu, zaměřenou konkrétně na identifikaci telefonních čísel a daňových identifikačních čísel. Pro identifikaci entit byly použity modely založené na architektuře BERT, které byly speciálně laděny. K trénování těchto modelů byla využita data poskytnutá firmou GenDigital, dále texty shromážděné z různých webových stránek a syntetické texty generované velkými jazykovými modely, jako je ChatGPT. Menší část tréninkových dat byla označena ručně, větší část pak pomocí jazykových modelů a nástroje PromptNER. Laděné modely dosahují F1 skóre až 0,945 na vytvořené testovací datové sadě, což je pouze o 0,018 nižší než nejlepší testovaný velký jazykový model, přičemž jsou minimálně 4,5krát levnější než použití tohoto modelu. Díky těmto modelům je možné efektivně zpracovávat libovolný text a vytvářet databáze telefonních čísel. Navíc je možné je spustit lokálně na slabších zařízeních, aniž by byla nutná akcelerace přes GPU.
The goal of this work is to develop an efficient method for detecting named entities in text, specifically focusing on the identification of phone numbers and tax identification numbers. For entity identification, models based on the BERT architecture were used, specially fine-tuned for this task. The training of these models utilized data provided by GenDigital, along with text collected from various websites, and synthetic texts generated using large language models such as ChatGPT. A smaller portion of the training data was manually labeled, while the larger portion was labeled using language models and the PromptNER tool. The fine-tuned models achieve an F1 score of up to 0.945 on the created test dataset, which is only 0.018 lower than the best-performing large language model tested, while being at least 4.5 times cheaper than using that model. These models enable efficient processing of any text and the creation of phone number databases. Additionally, they can be run locally on lower-end devices without the need for GPU acceleration,
The goal of this work is to develop an efficient method for detecting named entities in text, specifically focusing on the identification of phone numbers and tax identification numbers. For entity identification, models based on the BERT architecture were used, specially fine-tuned for this task. The training of these models utilized data provided by GenDigital, along with text collected from various websites, and synthetic texts generated using large language models such as ChatGPT. A smaller portion of the training data was manually labeled, while the larger portion was labeled using language models and the PromptNER tool. The fine-tuned models achieve an F1 score of up to 0.945 on the created test dataset, which is only 0.018 lower than the best-performing large language model tested, while being at least 4.5 times cheaper than using that model. These models enable efficient processing of any text and the creation of phone number databases. Additionally, they can be run locally on lower-end devices without the need for GPU acceleration,
Description
Keywords
strojové učení , detekce pojmenovaných entit v textu , velké jazykové modely , neuronové sítě , BERT , transformery , detekce čísel , umělá inteligence , PromptNER , machine learning , named entity recognition , large language models , neural networks , BERT , transformers , number detection , artificial intelligence , PromptNER
Citation
STEHLÍK, J. Vytvoření jazykového modelu pro nákladově efektivní detekci pojmenovaných entit v textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
prof. RNDr. Alexandr Meduna, CSc. (předseda)
Ing. Martin Hrubý, Ph.D. (člen)
Ing. Tomáš Milet, Ph.D. (člen)
Ing. Zbyněk Křivka, Ph.D. (člen)
Ing. Marcela Zachariášová, Ph.D. (člen)
Date of acceptance
2025-06-20
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
