Vytvoření jazykového modelu pro nákladově efektivní detekci pojmenovaných entit v textu

but.committeeprof. RNDr. Alexandr Meduna, CSc. (předseda) Ing. Martin Hrubý, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Marcela Zachariášová, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSmrž, Pavelcs
dc.contributor.authorStehlík, Jiřícs
dc.contributor.refereeDočekal, Martincs
dc.date.created2025cs
dc.description.abstractCílem této práce je vyvinout efektivní metodu pro detekci pojmenovaných entit v textu, zaměřenou konkrétně na identifikaci telefonních čísel a daňových identifikačních čísel. Pro identifikaci entit byly použity modely založené na architektuře BERT, které byly speciálně laděny. K trénování těchto modelů byla využita data poskytnutá firmou GenDigital, dále texty shromážděné z různých webových stránek a syntetické texty generované velkými jazykovými modely, jako je ChatGPT. Menší část tréninkových dat byla označena ručně, větší část pak pomocí jazykových modelů a nástroje PromptNER. Laděné modely dosahují F1 skóre až 0,945 na vytvořené testovací datové sadě, což je pouze o 0,018 nižší než nejlepší testovaný velký jazykový model, přičemž jsou minimálně 4,5krát levnější než použití tohoto modelu. Díky těmto modelům je možné efektivně zpracovávat libovolný text a vytvářet databáze telefonních čísel. Navíc je možné je spustit lokálně na slabších zařízeních, aniž by byla nutná akcelerace přes GPU.cs
dc.description.abstractThe goal of this work is to develop an efficient method for detecting named entities in text, specifically focusing on the identification of phone numbers and tax identification numbers. For entity identification, models based on the BERT architecture were used, specially fine-tuned for this task. The training of these models utilized data provided by GenDigital, along with text collected from various websites, and synthetic texts generated using large language models such as ChatGPT. A smaller portion of the training data was manually labeled, while the larger portion was labeled using language models and the PromptNER tool. The fine-tuned models achieve an F1 score of up to 0.945 on the created test dataset, which is only 0.018 lower than the best-performing large language model tested, while being at least 4.5 times cheaper than using that model. These models enable efficient processing of any text and the creation of phone number databases. Additionally, they can be run locally on lower-end devices without the need for GPU acceleration,en
dc.description.markAcs
dc.identifier.citationSTEHLÍK, J. Vytvoření jazykového modelu pro nákladově efektivní detekci pojmenovaných entit v textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other161261cs
dc.identifier.urihttp://hdl.handle.net/11012/254516
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectstrojové učenícs
dc.subjectdetekce pojmenovaných entit v textucs
dc.subjectvelké jazykové modelycs
dc.subjectneuronové sítěcs
dc.subjectBERTcs
dc.subjecttransformerycs
dc.subjectdetekce číselcs
dc.subjectumělá inteligencecs
dc.subjectPromptNERcs
dc.subjectmachine learningen
dc.subjectnamed entity recognitionen
dc.subjectlarge language modelsen
dc.subjectneural networksen
dc.subjectBERTen
dc.subjecttransformersen
dc.subjectnumber detectionen
dc.subjectartificial intelligenceen
dc.subjectPromptNERen
dc.titleVytvoření jazykového modelu pro nákladově efektivní detekci pojmenovaných entit v textucs
dc.title.alternativeCreation of Language Model for Cost-Efficient Named-Entity Recognitionen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2025-06-20cs
dcterms.modified2025-06-20-17:17:26cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid161261en
sync.item.dbtypeZPen
sync.item.insts2025.08.27 00:00:31en
sync.item.modts2025.08.26 19:36:17en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
3.1 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_161261.html
Size:
8.52 KB
Format:
Hypertext Markup Language
Description:
file review_161261.html

Collections