Vyhledávání v dokumentech s jemnou granularitou určování relevance

Jarolím, Antonín

Vyhledávání v dokumentech s jemnou granularitou určování relevance

Files

final-thesis.pdf (5.05 MB)

review_164140.html (10.2 KB)

Authors

Jarolím, Antonín

Advisor

Fajčík, Martin

Referee

Kesiraju, Santosh

Mark

A

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato práce se zabývá extrakcí detailních indikátorů relevance---konkrétních částí dokumentu, které vysvětlují, proč je dokument relevantní k dotazu uživatele---v kontextu vyhládávní informací. Práce nejprve hodnotí existující post-hoc metody interpretace, jako Attention-Rollout, AttCAT a Grad-SAM, a ukazuje jejich limitace při získávání signálů na úrovni tokenů v datech z technické vládní domény. Přístup založený na promptování modelu GPT-4o dosahuje o 17\% vyšší výkonnosti, avšak nasazení velkého jazykového modelu během vyhledávání je výpočetně neúnosné. Proto je z detové sady MS~MARCO vytvořena rozsáhlá anotovaná sada s anotacemi na úrovni tokenů, generovanými pomocí velkého jazykového modelu (LLM). Ten je vybrán na základě porovnávání s anotacemi poskytnutými lidmi. Dále je navržen nový model FGR-ColBERT, rozšiřující architekturu ColBERT o token-level supervizi. Tři varianty architektury umožňují volbu mezi efektivitou a nároky na výpočet či úložiště. Výsledky ukazují, že FGR-ColBERT dosahuje souladu s lidskými anotacemi srovnatelného nebo vyššího než dislitovaný LLM, při zachování silného výkonu (Recall\@50 = 99{,}1\%) při vyhledávání dokumentů, v porovnání s modelem, který byl trénován pouze pro vyhledávání dokumentů. Experimenty také potvrzují, že zobrazení extrahovaných úseků (pokrývajících průměrně 38\% tokenů textu) zrychluje hodnocení relevance s minimální ztrátou přesnosti (pokles pouze o 0.22) hodnocení relevance dokumentů. Práce ukazuje, že detailní interpretovatelnost je dosažitelná s minimální režijní náročností.
This thesis addresses the challenge of extracting fine-grained relevance cues---specific parts of a document that indicate why it is relevant to a user's search query---from information retrieval systems. It begins with an evaluation of existing post-hoc interpretability methods, such as Attention-Rollout, AttCAT, and Grad-SAM, showing their limited effectiveness in token-level signal extraction on dataset comprising technical government domain texts. The prompting-based approach using GPT-4o achieved 17\% higher performance; however, incorporating an LLM during retrieval is not feasible due to computational constraints. Subsequently, to both enable training an interpretable model, and leverage the strength of LLM, a large scale dataset with token-level annotations is constructed from the MS~MARCO dataset. Annotations are added using a carefully selected large language model, whose outputs are validated against human annotations. Next, a novel retrieval model, FGR-ColBERT, is proposed by extending the ColBERT architecture to incorporate token-level supervision. Three architectural variants are introduced, enabling trade-offs between retrieval effectiveness and computational or storage cost. Experiments show that the proposed FGR-ColBERT produces token-level scores that match or even exceed the alignment with human annotations provided by the distilled large language model, while retaining strong document retrieval performance, with a Recall@50 of 99.1\% compared to ColBERT model trained solely for document retrieval. Additionally, the experiment demonstrates that presenting extracted spans—covering only 38\% of the full passage tokens on average—improves the efficiency of relevance judgments, with only a marginal relevance judgment accuracy drop of 0.22. These results show that fine-grained interpretability can be achieved with minimal overhead and thus practical applicability.

Keywords

informační vyhledávání , jemná granularita , interpretovatelnost , ColBERT , relevance , neuronové sítě , zpracování přirozeného jazyka , jazykové modely , výběr důležitých tokenů , information retrieval , fine-grained relevance , interpretability , ColBERT , relevance cues , neural networks , natural language processing , language models , token-level extraction

Citation

JAROLÍM, A. Vyhledávání v dokumentech s jemnou granularitou určování relevance [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

en

Study field

Strojové učení

Comittee

doc. Ing. Lukáš Burget, Ph.D. (předseda) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)

Date of acceptance

2025-06-26

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/255116

Collections

2025

Citace PRO

Full item page

Vyhledávání v dokumentech s jemnou granularitou určování relevance

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO