Zpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelu

but.committeedoc. Ing. František Zbořil, Ph.D. (předseda) RNDr. Marek Rychlý, Ph.D. (člen) doc. Ing. Zdeněk Vašíček, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen) Ing. Ivana Burgetová, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.cs
but.jazykčeština (Czech)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBartík, Vladimírcs
dc.contributor.authorValík, Adamcs
dc.contributor.refereeBurgetová, Ivanacs
dc.date.created2025cs
dc.description.abstractTato práce řeší problém vyhledávání informací v rozsáhlých sadách nestrukturovaných textových dokumentů. Navržené řešení kombinuje vektorovou databázi a velké jazykové modely v architektuře Retrieval-Augmented Generation (RAG) integrované s cloudovým úložištěm. Texty jsou z dokumentů extrahovány a děleny na menší části (chunky), které jsou ve vektorové podobě uložené do databáze. Informace se vyhledávají hybridním přístupem kombinujícím vektorové a fulltextové vyhledávání s rerankingem, na jejichž základě je generována odpověď. Výsledkem je systém, který umožňuje uživateli klást dotazy v přirozeném jazyce a získávat relevantní odpovědi podložené znalostní bází tvořenou vlastními dokumenty. Experimentální ověření prokázalo účinnost vyhledávání i kvalitu generovaných odpovědí. Význam práce spočívá v možnosti snadno nasadit vyhledávání nad interními dokumenty organizací bez nutnosti trénování vlastního jazykového modelu.cs
dc.description.abstractThis thesis addresses the problem of information retrieval in large collections of unstructured text documents. The proposed solution combines vector database and a large language models within the Retrieval-Augmented Generation (RAG) architecture, integrated with a cloud storage system. Texts are extracted from documents and divided into smaller parts (chunks), which are stored in the database in a vectorized form. Information is retrieved using a hybrid approach combining vector and full-text search with reranking, based on which an answer is generated. The resulting system enables users to ask questions in natural language and receive relevant answers supported by a knowledge base composed of their own documents. Experimental evaluation confirmed the effectiveness of the retrieval process as well as the quality of the generated responses. The significance of the work lies in the ability to easily deploy information retrieval over internal organizational documents without the need to train a custom language model.en
dc.description.markAcs
dc.identifier.citationVALÍK, A. Zpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other163475cs
dc.identifier.urihttp://hdl.handle.net/11012/253715
dc.language.isocscs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectvektorové databázecs
dc.subjectRetrieval-Augmented Generationcs
dc.subjectzpracování přirozeného jazykacs
dc.subjectembedding modelycs
dc.subjectvyhledávání informacícs
dc.subjectvelké jazykové modelycs
dc.subjectvector databasesen
dc.subjectRetrieval-Augmented Generationen
dc.subjectnatural language processingen
dc.subjectembedding modelsen
dc.subjectinformation retrievalen
dc.subjectlarge language modelsen
dc.titleZpracování a vyhledávání dokumentů s využitím vektorových databází a jazykového modelucs
dc.title.alternativeProcessing and Retrieval of Text Documents with Use of Vector Databases and a Language Modelen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2025-06-18cs
dcterms.modified2025-06-18-16:16:20cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid163475en
sync.item.dbtypeZPen
sync.item.insts2025.08.26 23:57:24en
sync.item.modts2025.08.26 19:58:20en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav informačních systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
4 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_163475.html
Size:
8.98 KB
Format:
Hypertext Markup Language
Description:
file review_163475.html

Collections