Zpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelu

Valík, Adam

Zpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelu

Files

final-thesis.pdf (4 MB)

review_163475.html (8.98 KB)

Authors

Valík, Adam

Advisor

Bartík, Vladimír

Referee

Burgetová, Ivana

Mark

A

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato práce řeší problém vyhledávání informací v rozsáhlých sadách nestrukturovaných textových dokumentů. Navržené řešení kombinuje vektorovou databázi a velké jazykové modely v architektuře Retrieval-Augmented Generation (RAG) integrované s cloudovým úložištěm. Texty jsou z dokumentů extrahovány a děleny na menší části (chunky), které jsou ve vektorové podobě uložené do databáze. Informace se vyhledávají hybridním přístupem kombinujícím vektorové a fulltextové vyhledávání s rerankingem, na jejichž základě je generována odpověď. Výsledkem je systém, který umožňuje uživateli klást dotazy v přirozeném jazyce a získávat relevantní odpovědi podložené znalostní bází tvořenou vlastními dokumenty. Experimentální ověření prokázalo účinnost vyhledávání i kvalitu generovaných odpovědí. Význam práce spočívá v možnosti snadno nasadit vyhledávání nad interními dokumenty organizací bez nutnosti trénování vlastního jazykového modelu.
This thesis addresses the problem of information retrieval in large collections of unstructured text documents. The proposed solution combines vector database and a large language models within the Retrieval-Augmented Generation (RAG) architecture, integrated with a cloud storage system. Texts are extracted from documents and divided into smaller parts (chunks), which are stored in the database in a vectorized form. Information is retrieved using a hybrid approach combining vector and full-text search with reranking, based on which an answer is generated. The resulting system enables users to ask questions in natural language and receive relevant answers supported by a knowledge base composed of their own documents. Experimental evaluation confirmed the effectiveness of the retrieval process as well as the quality of the generated responses. The significance of the work lies in the ability to easily deploy information retrieval over internal organizational documents without the need to train a custom language model.

Keywords

vektorové databáze , Retrieval-Augmented Generation , zpracování přirozeného jazyka , embedding modely , vyhledávání informací , velké jazykové modely , vector databases , Retrieval-Augmented Generation , natural language processing , embedding models , information retrieval , large language models

Citation

VALÍK, A. Zpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

cs

Study field

Informační technologie

Comittee

doc. Ing. František Zbořil, Ph.D. (předseda) RNDr. Marek Rychlý, Ph.D. (člen) doc. Ing. Zdeněk Vašíček, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen) Ing. Ivana Burgetová, Ph.D. (člen)

Date of acceptance

2025-06-18

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/253715

Collections

2025

Citace PRO

Full item page

Zpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelu

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO