Zpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelu
Loading...
Date
Authors
Valík, Adam
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato práce řeší problém vyhledávání informací v rozsáhlých sadách nestrukturovaných textových dokumentů. Navržené řešení kombinuje vektorovou databázi a velké jazykové modely v architektuře Retrieval-Augmented Generation (RAG) integrované s cloudovým úložištěm. Texty jsou z dokumentů extrahovány a děleny na menší části (chunky), které jsou ve vektorové podobě uložené do databáze. Informace se vyhledávají hybridním přístupem kombinujícím vektorové a fulltextové vyhledávání s rerankingem, na jejichž základě je generována odpověď. Výsledkem je systém, který umožňuje uživateli klást dotazy v přirozeném jazyce a získávat relevantní odpovědi podložené znalostní bází tvořenou vlastními dokumenty. Experimentální ověření prokázalo účinnost vyhledávání i kvalitu generovaných odpovědí. Význam práce spočívá v možnosti snadno nasadit vyhledávání nad interními dokumenty organizací bez nutnosti trénování vlastního jazykového modelu.
This thesis addresses the problem of information retrieval in large collections of unstructured text documents. The proposed solution combines vector database and a large language models within the Retrieval-Augmented Generation (RAG) architecture, integrated with a cloud storage system. Texts are extracted from documents and divided into smaller parts (chunks), which are stored in the database in a vectorized form. Information is retrieved using a hybrid approach combining vector and full-text search with reranking, based on which an answer is generated. The resulting system enables users to ask questions in natural language and receive relevant answers supported by a knowledge base composed of their own documents. Experimental evaluation confirmed the effectiveness of the retrieval process as well as the quality of the generated responses. The significance of the work lies in the ability to easily deploy information retrieval over internal organizational documents without the need to train a custom language model.
This thesis addresses the problem of information retrieval in large collections of unstructured text documents. The proposed solution combines vector database and a large language models within the Retrieval-Augmented Generation (RAG) architecture, integrated with a cloud storage system. Texts are extracted from documents and divided into smaller parts (chunks), which are stored in the database in a vectorized form. Information is retrieved using a hybrid approach combining vector and full-text search with reranking, based on which an answer is generated. The resulting system enables users to ask questions in natural language and receive relevant answers supported by a knowledge base composed of their own documents. Experimental evaluation confirmed the effectiveness of the retrieval process as well as the quality of the generated responses. The significance of the work lies in the ability to easily deploy information retrieval over internal organizational documents without the need to train a custom language model.
Description
Keywords
Citation
VALÍK, A. Zpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
cs
Study field
Informační technologie
Comittee
doc. Ing. František Zbořil, Ph.D. (předseda)
RNDr. Marek Rychlý, Ph.D. (člen)
doc. Ing. Zdeněk Vašíček, Ph.D. (člen)
doc. Ing. Vítězslav Beran, Ph.D. (člen)
Ing. Ivana Burgetová, Ph.D. (člen)
Date of acceptance
2025-06-18
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
