Zpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelu

Valík, Adam

Zpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelu

but.committee	doc. Ing. František Zbořil, Ph.D. (předseda) RNDr. Marek Rychlý, Ph.D. (člen) doc. Ing. Zdeněk Vašíček, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen) Ing. Ivana Burgetová, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.	cs
but.jazyk	čeština (Czech)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Bartík, Vladimír	cs
dc.contributor.author	Valík, Adam	cs
dc.contributor.referee	Burgetová, Ivana	cs
dc.date.created	2025	cs
dc.description.abstract	Tato práce řeší problém vyhledávání informací v rozsáhlých sadách nestrukturovaných textových dokumentů. Navržené řešení kombinuje vektorovou databázi a velké jazykové modely v architektuře Retrieval-Augmented Generation (RAG) integrované s cloudovým úložištěm. Texty jsou z dokumentů extrahovány a děleny na menší části (chunky), které jsou ve vektorové podobě uložené do databáze. Informace se vyhledávají hybridním přístupem kombinujícím vektorové a fulltextové vyhledávání s rerankingem, na jejichž základě je generována odpověď. Výsledkem je systém, který umožňuje uživateli klást dotazy v přirozeném jazyce a získávat relevantní odpovědi podložené znalostní bází tvořenou vlastními dokumenty. Experimentální ověření prokázalo účinnost vyhledávání i kvalitu generovaných odpovědí. Význam práce spočívá v možnosti snadno nasadit vyhledávání nad interními dokumenty organizací bez nutnosti trénování vlastního jazykového modelu.	cs
dc.description.abstract	This thesis addresses the problem of information retrieval in large collections of unstructured text documents. The proposed solution combines vector database and a large language models within the Retrieval-Augmented Generation (RAG) architecture, integrated with a cloud storage system. Texts are extracted from documents and divided into smaller parts (chunks), which are stored in the database in a vectorized form. Information is retrieved using a hybrid approach combining vector and full-text search with reranking, based on which an answer is generated. The resulting system enables users to ask questions in natural language and receive relevant answers supported by a knowledge base composed of their own documents. Experimental evaluation confirmed the effectiveness of the retrieval process as well as the quality of the generated responses. The significance of the work lies in the ability to easily deploy information retrieval over internal organizational documents without the need to train a custom language model.	en
dc.description.mark	A	cs
dc.identifier.citation	VALÍK, A. Zpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.	cs
dc.identifier.other	163475	cs
dc.identifier.uri	http://hdl.handle.net/11012/253715
dc.language.iso	cs	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	vektorové databáze	cs
dc.subject	Retrieval-Augmented Generation	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	embedding modely	cs
dc.subject	vyhledávání informací	cs
dc.subject	velké jazykové modely	cs
dc.subject	vector databases	en
dc.subject	Retrieval-Augmented Generation	en
dc.subject	natural language processing	en
dc.subject	embedding models	en
dc.subject	information retrieval	en
dc.subject	large language models	en
dc.title	Zpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelu	cs
dc.title.alternative	Processing and Retrieval of Text Documents with Use of Vector Databases and a Language Model	en
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2025-06-18	cs
dcterms.modified	2025-06-18-16:16:20	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	163475	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.08.26 23:57:24	en
sync.item.modts	2025.08.26 19:58:20	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémů	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Files

Original bundle

Now showing 1 - 2 of 2

Name:: final-thesis.pdf
Size:: 4 MB
Format:: Adobe Portable Document Format
Description:: file final-thesis.pdf

Download

Name:: review_163475.html
Size:: 8.98 KB
Format:: Hypertext Markup Language
Description:: file review_163475.html

Download

Collections

2025