Vektorová reprezentace českého textu

Eichler, Vojtěch

Vektorová reprezentace českého textu

Files

final-thesis.pdf (7.21 MB)

review_164716.html (12.84 KB)

Authors

Eichler, Vojtěch

Advisor

Beneš, Karel

Referee

Fajčík, Martin

Mark

B

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

Abstract

Tato diplomová práce představuje model Czechtriever, vyhledávací model navržený pro český jazyk a trénovaný bez anotovaných dat. Model vychází z architektury a metodologie Contrieveru a využívá kontrastivní učení k získání reprezentací textu přímo z neoanotovaných dat. Czechtriever je trénován na rozsáhlém korpusu českých textů a vyhodnocován vůči tradičním i neuronovým modelům na anotovaném datasetu historických textů. Experimenty ukazují, že Czechtriever překonává české i vícejazyčné baseline modely. Práce dále zkoumá možnost destilace znalostí z velkého jazykového modelu (Gemma2) do Czechtrieveru. Výsledky potvrzují, že kontrastivní učení s dostatečným množstvím dat a pečlivým návrhem může vést ke kvalitním vyhledávacím modelům i pro jazyky s nízkým množstvím zdrojů, jako je čeština.
This thesis presents Czechtriever, a retrieval model designed for the Czech language and trained without annotated data. The model is based on the architecture and methodology of Contriever and employs contrastive learning to obtain text representations directly from unannotated data. Czechtriever is trained on a large corpus of Czech texts and evaluated against both traditional and neural models using an annotated dataset of historical texts. Experiments show that Czechtriever outperforms both Czech and multilingual baseline models. The thesis also explores the possibility of distilling knowledge from a large language model (Gemma2) into Czechtriever. The results confirm that contrastive learning with sufficient data and careful design can yield high-quality retrieval models even for low-resource languages such as Czech.

Keywords

vyhledávání informací , husté vyhledávání , kontrastivní učení , český jazyk , učení bez učitele , vyhledávací model , jazyková reprezentace , destilace znalostí , information retrieval , dense retrieval , contrastive learning , Czech language , unsupervised training , retrieval model , language representation , knowledge distillation

Citation

EICHLER, V. Vektorová reprezentace českého textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Language of document

en

Study field

Strojové učení

Comittee

prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)

Date of acceptance

2025-06-24

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/254963

Collections

2025

Citace PRO

Full item page

Vektorová reprezentace českého textu

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO