Vyhledávání v dokumentech s jemnou granularitou určování relevance
Loading...
Date
Authors
Jarolím, Antonín
Advisor
Referee
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato práce se zabývá extrakcí detailních indikátorů relevance---konkrétních částí dokumentu, které vysvětlují, proč je dokument relevantní k dotazu uživatele---v kontextu vyhládávní informací. Práce nejprve hodnotí existující post-hoc metody interpretace, jako Attention-Rollout, AttCAT a Grad-SAM, a ukazuje jejich limitace při získávání signálů na úrovni tokenů v datech z technické vládní domény. Přístup založený na promptování modelu GPT-4o dosahuje o 17\% vyšší výkonnosti, avšak nasazení velkého jazykového modelu během vyhledávání je výpočetně neúnosné. Proto je z detové sady MS~MARCO vytvořena rozsáhlá anotovaná sada s anotacemi na úrovni tokenů, generovanými pomocí velkého jazykového modelu (LLM). Ten je vybrán na základě porovnávání s anotacemi poskytnutými lidmi. Dále je navržen nový model FGR-ColBERT, rozšiřující architekturu ColBERT o token-level supervizi. Tři varianty architektury umožňují volbu mezi efektivitou a nároky na výpočet či úložiště. Výsledky ukazují, že FGR-ColBERT dosahuje souladu s lidskými anotacemi srovnatelného nebo vyššího než dislitovaný LLM, při zachování silného výkonu (Recall\@50 = 99{,}1\%) při vyhledávání dokumentů, v porovnání s modelem, který byl trénován pouze pro vyhledávání dokumentů. Experimenty také potvrzují, že zobrazení extrahovaných úseků (pokrývajících průměrně 38\% tokenů textu) zrychluje hodnocení relevance s minimální ztrátou přesnosti (pokles pouze o 0.22) hodnocení relevance dokumentů. Práce ukazuje, že detailní interpretovatelnost je dosažitelná s minimální režijní náročností.
This thesis addresses the challenge of extracting fine-grained relevance cues---specific parts of a document that indicate why it is relevant to a user's search query---from information retrieval systems. It begins with an evaluation of existing post-hoc interpretability methods, such as Attention-Rollout, AttCAT, and Grad-SAM, showing their limited effectiveness in token-level signal extraction on dataset comprising technical government domain texts. The prompting-based approach using GPT-4o achieved 17\% higher performance; however, incorporating an LLM during retrieval is not feasible due to computational constraints. Subsequently, to both enable training an interpretable model, and leverage the strength of LLM, a large scale dataset with token-level annotations is constructed from the MS~MARCO dataset. Annotations are added using a carefully selected large language model, whose outputs are validated against human annotations. Next, a novel retrieval model, FGR-ColBERT, is proposed by extending the ColBERT architecture to incorporate token-level supervision. Three architectural variants are introduced, enabling trade-offs between retrieval effectiveness and computational or storage cost. Experiments show that the proposed FGR-ColBERT produces token-level scores that match or even exceed the alignment with human annotations provided by the distilled large language model, while retaining strong document retrieval performance, with a Recall@50 of 99.1\% compared to ColBERT model trained solely for document retrieval. Additionally, the experiment demonstrates that presenting extracted spans—covering only 38\% of the full passage tokens on average—improves the efficiency of relevance judgments, with only a marginal relevance judgment accuracy drop of 0.22. These results show that fine-grained interpretability can be achieved with minimal overhead and thus practical applicability.
This thesis addresses the challenge of extracting fine-grained relevance cues---specific parts of a document that indicate why it is relevant to a user's search query---from information retrieval systems. It begins with an evaluation of existing post-hoc interpretability methods, such as Attention-Rollout, AttCAT, and Grad-SAM, showing their limited effectiveness in token-level signal extraction on dataset comprising technical government domain texts. The prompting-based approach using GPT-4o achieved 17\% higher performance; however, incorporating an LLM during retrieval is not feasible due to computational constraints. Subsequently, to both enable training an interpretable model, and leverage the strength of LLM, a large scale dataset with token-level annotations is constructed from the MS~MARCO dataset. Annotations are added using a carefully selected large language model, whose outputs are validated against human annotations. Next, a novel retrieval model, FGR-ColBERT, is proposed by extending the ColBERT architecture to incorporate token-level supervision. Three architectural variants are introduced, enabling trade-offs between retrieval effectiveness and computational or storage cost. Experiments show that the proposed FGR-ColBERT produces token-level scores that match or even exceed the alignment with human annotations provided by the distilled large language model, while retaining strong document retrieval performance, with a Recall@50 of 99.1\% compared to ColBERT model trained solely for document retrieval. Additionally, the experiment demonstrates that presenting extracted spans—covering only 38\% of the full passage tokens on average—improves the efficiency of relevance judgments, with only a marginal relevance judgment accuracy drop of 0.22. These results show that fine-grained interpretability can be achieved with minimal overhead and thus practical applicability.
Description
Keywords
informační vyhledávání , jemná granularita , interpretovatelnost , ColBERT , relevance , neuronové sítě , zpracování přirozeného jazyka , jazykové modely , výběr důležitých tokenů , information retrieval , fine-grained relevance , interpretability , ColBERT , relevance cues , neural networks , natural language processing , language models , token-level extraction
Citation
JAROLÍM, A. Vyhledávání v dokumentech s jemnou granularitou určování relevance [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Strojové učení
Comittee
doc. Ing. Lukáš Burget, Ph.D. (předseda)
prof. Dr. Ing. Jan Černocký (člen)
doc. Ing. Vladimír Janoušek, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Jaroslav Rozman, Ph.D. (člen)
Ing. František Grézl, Ph.D. (člen)
Date of acceptance
2025-06-26
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Result of defence
práce byla úspěšně obhájena
