Systém pro vytěžování zpravodajských informací založený na velkých jazykových modelech

Král, Rostislav

Systém pro vytěžování zpravodajských informací založený na velkých jazykových modelech

Files

final-thesis.pdf (1.4 MB)

review_162943.html (11.92 KB)

Authors

Král, Rostislav

Advisor

Schwarz, Petr

Referee

Plchot, Oldřich

Mark

C

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

V této práci byl vyvinut základ systému založený na velkých jazykových modelech pro zpracování zpravodajských informací se zaměřením na vojenské analytiky. Hlavním cílem bylo extrahovat z textů klíčové či zajímavé entity. Byly prozkoumány tři přístupy generativní NER s variantami Llama3 modelů (Llama 3.2 1B, Llama 3.1 8B, Llama 3.3 70B) –- zero-shot prompting, few-shot prompting a QLoRa fine-tuning – ve srovnání se dvěma baseline modely: OpenAI GPT-4o-mini a XLM-RoBERTa (fine-tuned, s zploštělými zjednodušenými entitami). Vyhodnocení proběhlo na sto oanotovaných dokumentech v českém jazyce z blogu “valka.online” a metriky precision, recall a F1 byly spočteny. Nejlepšího výsledku dosáhl model Llama 3.3 70B po dotrénování s 65% Precision, 69,7% Recall a 67,2% F1 skóre, čímž překonal oba baseline modely i promptingové přístupy na základních modelech o více než 15-40% v jednotlivých metrikách. Pro podporu následného vyhledávání byl vyvinut prototyp sémantického vyhledávání a zacíleného na podrobnější prohledávání dokumentů, využívající model Qwen 3 32B spolu s modelem BAAI BGE-M3.
In this work, a foundation of an LLM-based intelligence mining system with a focus on military analysts was developed. The primary focus was on extracting critical or interesting entities in texts. Three approaches for generative NER with Llama3 variants (Llama3.2 1B, Llama3.1 8B, Llama3.3 70B) -- zero-shot prompting, few-shot prompting, and QLoRa fine-tuning were explored against two baselines: OpenAI's GPT4o-mini and XLM-RoBERTa model (fine-tuned, with flattened entities). Evaluation was done on hundreds of Czech annotated documents from the "valka.online" blog, and precision, recall, and F1 scores were scored. The best results were given by fine-tuned Llama3.3 70B with 65% precision, 69.7% recall, and 67.2% F1 score, beating both baselines and prompting methods on the base models by more than 15-40% in each metric. To support downstream retrieval, the prototype of semantic search and thus fine-grained searching in documents was developed using Qwen3 32B model with BAAI BGE-M3 embedding model.

Keywords

LLM , NER , Text mining , NLP , Semantic search , LLM , NER , Text mining , NLP , Semantic search

Citation

KRÁL, R. Systém pro vytěžování zpravodajských informací založený na velkých jazykových modelech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

en

Study field

Informační technologie

Comittee

prof. Ing. Adam Herout, Ph.D. (předseda) Dr. Ing. Petr Peringer (člen) Ing. Matěj Grégr, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. Jiří Matoušek, Ph.D. (člen)

Date of acceptance

2025-06-18

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/253704

Collections

2025

Citace PRO

Full item page

Systém pro vytěžování zpravodajských informací založený na velkých jazykových modelech

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO