Vyhledávání v dokumentech s jemnou granularitou určování relevance

but.committeedoc. Ing. Lukáš Burget, Ph.D. (předseda) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorFajčík, Martinen
dc.contributor.authorJarolím, Antonínen
dc.contributor.refereeKesiraju, Santoshen
dc.date.created2025cs
dc.description.abstractTato práce se zabývá extrakcí detailních indikátorů relevance---konkrétních částí dokumentu, které vysvětlují, proč je dokument relevantní k dotazu uživatele---v kontextu vyhládávní informací. Práce nejprve hodnotí existující post-hoc metody interpretace, jako Attention-Rollout, AttCAT a Grad-SAM, a ukazuje jejich limitace při získávání signálů na úrovni tokenů v datech z technické vládní domény. Přístup založený na promptování modelu GPT-4o dosahuje o 17\% vyšší výkonnosti, avšak nasazení velkého jazykového modelu během vyhledávání je výpočetně neúnosné. Proto je z detové sady MS~MARCO vytvořena rozsáhlá anotovaná sada s anotacemi na úrovni tokenů, generovanými pomocí velkého jazykového modelu (LLM). Ten je vybrán na základě porovnávání s anotacemi poskytnutými lidmi. Dále je navržen nový model FGR-ColBERT, rozšiřující architekturu ColBERT o token-level supervizi. Tři varianty architektury umožňují volbu mezi efektivitou a nároky na výpočet či úložiště. Výsledky ukazují, že FGR-ColBERT dosahuje souladu s lidskými anotacemi srovnatelného nebo vyššího než dislitovaný LLM, při zachování silného výkonu (Recall\@50 = 99{,}1\%) při vyhledávání dokumentů, v porovnání s modelem, který byl trénován pouze pro vyhledávání dokumentů. Experimenty také potvrzují, že zobrazení extrahovaných úseků (pokrývajících průměrně 38\% tokenů textu) zrychluje hodnocení relevance s minimální ztrátou přesnosti (pokles pouze o 0.22) hodnocení relevance dokumentů. Práce ukazuje, že detailní interpretovatelnost je dosažitelná s minimální režijní náročností.en
dc.description.abstractThis thesis addresses the challenge of extracting fine-grained relevance cues---specific parts of a document that indicate why it is relevant to a user's search query---from information retrieval systems. It begins with an evaluation of existing post-hoc interpretability methods, such as Attention-Rollout, AttCAT, and Grad-SAM, showing their limited effectiveness in token-level signal extraction on dataset comprising technical government domain texts. The prompting-based approach using GPT-4o achieved 17\% higher performance; however, incorporating an LLM during retrieval is not feasible due to computational constraints. Subsequently, to both enable training an interpretable model, and leverage the strength of LLM, a large scale dataset with token-level annotations is constructed from the MS~MARCO dataset. Annotations are added using a carefully selected large language model, whose outputs are validated against human annotations. Next, a novel retrieval model, FGR-ColBERT, is proposed by extending the ColBERT architecture to incorporate token-level supervision. Three architectural variants are introduced, enabling trade-offs between retrieval effectiveness and computational or storage cost. Experiments show that the proposed FGR-ColBERT produces token-level scores that match or even exceed the alignment with human annotations provided by the distilled large language model, while retaining strong document retrieval performance, with a Recall@50 of 99.1\% compared to ColBERT model trained solely for document retrieval. Additionally, the experiment demonstrates that presenting extracted spans—covering only 38\% of the full passage tokens on average—improves the efficiency of relevance judgments, with only a marginal relevance judgment accuracy drop of 0.22. These results show that fine-grained interpretability can be achieved with minimal overhead and thus practical applicability.cs
dc.description.markAcs
dc.identifier.citationJAROLÍM, A. Vyhledávání v dokumentech s jemnou granularitou určování relevance [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other164140cs
dc.identifier.urihttp://hdl.handle.net/11012/255116
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectinformační vyhledáváníen
dc.subjectjemná granularitaen
dc.subjectinterpretovatelnosten
dc.subjectColBERTen
dc.subjectrelevanceen
dc.subjectneuronové sítěen
dc.subjectzpracování přirozeného jazykaen
dc.subjectjazykové modelyen
dc.subjectvýběr důležitých tokenůen
dc.subjectinformation retrievalcs
dc.subjectfine-grained relevancecs
dc.subjectinterpretabilitycs
dc.subjectColBERTcs
dc.subjectrelevance cuescs
dc.subjectneural networkscs
dc.subjectnatural language processingcs
dc.subjectlanguage modelscs
dc.subjecttoken-level extractioncs
dc.titleVyhledávání v dokumentech s jemnou granularitou určování relevanceen
dc.title.alternativeDocument Retrieval with Fine-grained Relevance Cuescs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2025-06-26cs
dcterms.modified2025-06-26-11:13:20cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid164140en
sync.item.dbtypeZPen
sync.item.insts2025.08.27 02:04:37en
sync.item.modts2025.08.26 20:24:47en
thesis.disciplineStrojové učenícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
5.05 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_164140.html
Size:
10.2 KB
Format:
Hypertext Markup Language
Description:
file review_164140.html

Collections