Vyhledávání v dokumentech s jemnou granularitou určování relevance

Loading...
Thumbnail Image

Date

Authors

Jarolím, Antonín

Mark

A

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato práce se zabývá extrakcí detailních indikátorů relevance---konkrétních částí dokumentu, které vysvětlují, proč je dokument relevantní k dotazu uživatele---v kontextu vyhládávní informací. Práce nejprve hodnotí existující post-hoc metody interpretace, jako Attention-Rollout, AttCAT a Grad-SAM, a ukazuje jejich limitace při získávání signálů na úrovni tokenů v datech z technické vládní domény. Přístup založený na promptování modelu GPT-4o dosahuje o 17\% vyšší výkonnosti, avšak nasazení velkého jazykového modelu během vyhledávání je výpočetně neúnosné. Proto je z detové sady MS~MARCO vytvořena rozsáhlá anotovaná sada s anotacemi na úrovni tokenů, generovanými pomocí velkého jazykového modelu (LLM). Ten je vybrán na základě porovnávání s anotacemi poskytnutými lidmi. Dále je navržen nový model FGR-ColBERT, rozšiřující architekturu ColBERT o token-level supervizi. Tři varianty architektury umožňují volbu mezi efektivitou a nároky na výpočet či úložiště. Výsledky ukazují, že FGR-ColBERT dosahuje souladu s lidskými anotacemi srovnatelného nebo vyššího než dislitovaný LLM, při zachování silného výkonu (Recall\@50 = 99{,}1\%) při vyhledávání dokumentů, v porovnání s modelem, který byl trénován pouze pro vyhledávání dokumentů. Experimenty také potvrzují, že zobrazení extrahovaných úseků (pokrývajících průměrně 38\% tokenů textu) zrychluje hodnocení relevance s minimální ztrátou přesnosti (pokles pouze o 0.22) hodnocení relevance dokumentů. Práce ukazuje, že detailní interpretovatelnost je dosažitelná s minimální režijní náročností.
This thesis addresses the challenge of extracting fine-grained relevance cues---specific parts of a document that indicate why it is relevant to a user's search query---from information retrieval systems. It begins with an evaluation of existing post-hoc interpretability methods, such as Attention-Rollout, AttCAT, and Grad-SAM, showing their limited effectiveness in token-level signal extraction on dataset comprising technical government domain texts. The prompting-based approach using GPT-4o achieved 17\% higher performance; however, incorporating an LLM during retrieval is not feasible due to computational constraints. Subsequently, to both enable training an interpretable model, and leverage the strength of LLM, a large scale dataset with token-level annotations is constructed from the MS~MARCO dataset. Annotations are added using a carefully selected large language model, whose outputs are validated against human annotations. Next, a novel retrieval model, FGR-ColBERT, is proposed by extending the ColBERT architecture to incorporate token-level supervision. Three architectural variants are introduced, enabling trade-offs between retrieval effectiveness and computational or storage cost. Experiments show that the proposed FGR-ColBERT produces token-level scores that match or even exceed the alignment with human annotations provided by the distilled large language model, while retaining strong document retrieval performance, with a Recall@50 of 99.1\% compared to ColBERT model trained solely for document retrieval. Additionally, the experiment demonstrates that presenting extracted spans—covering only 38\% of the full passage tokens on average—improves the efficiency of relevance judgments, with only a marginal relevance judgment accuracy drop of 0.22. These results show that fine-grained interpretability can be achieved with minimal overhead and thus practical applicability.

Description

Citation

JAROLÍM, A. Vyhledávání v dokumentech s jemnou granularitou určování relevance [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Strojové učení

Comittee

doc. Ing. Lukáš Burget, Ph.D. (předseda) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)

Date of acceptance

2025-06-26

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO