Vektorová reprezentace českého textu
Loading...
Date
Authors
Eichler, Vojtěch
Advisor
Referee
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Tato diplomová práce představuje model Czechtriever, vyhledávací model navržený pro český jazyk a trénovaný bez anotovaných dat. Model vychází z architektury a metodologie Contrieveru a využívá kontrastivní učení k získání reprezentací textu přímo z neoanotovaných dat. Czechtriever je trénován na rozsáhlém korpusu českých textů a vyhodnocován vůči tradičním i neuronovým modelům na anotovaném datasetu historických textů. Experimenty ukazují, že Czechtriever překonává české i vícejazyčné baseline modely. Práce dále zkoumá možnost destilace znalostí z velkého jazykového modelu (Gemma2) do Czechtrieveru. Výsledky potvrzují, že kontrastivní učení s dostatečným množstvím dat a pečlivým návrhem může vést ke kvalitním vyhledávacím modelům i pro jazyky s nízkým množstvím zdrojů, jako je čeština.
This thesis presents Czechtriever, a retrieval model designed for the Czech language and trained without annotated data. The model is based on the architecture and methodology of Contriever and employs contrastive learning to obtain text representations directly from unannotated data. Czechtriever is trained on a large corpus of Czech texts and evaluated against both traditional and neural models using an annotated dataset of historical texts. Experiments show that Czechtriever outperforms both Czech and multilingual baseline models. The thesis also explores the possibility of distilling knowledge from a large language model (Gemma2) into Czechtriever. The results confirm that contrastive learning with sufficient data and careful design can yield high-quality retrieval models even for low-resource languages such as Czech.
This thesis presents Czechtriever, a retrieval model designed for the Czech language and trained without annotated data. The model is based on the architecture and methodology of Contriever and employs contrastive learning to obtain text representations directly from unannotated data. Czechtriever is trained on a large corpus of Czech texts and evaluated against both traditional and neural models using an annotated dataset of historical texts. Experiments show that Czechtriever outperforms both Czech and multilingual baseline models. The thesis also explores the possibility of distilling knowledge from a large language model (Gemma2) into Czechtriever. The results confirm that contrastive learning with sufficient data and careful design can yield high-quality retrieval models even for low-resource languages such as Czech.
Description
Keywords
vyhledávání informací , husté vyhledávání , kontrastivní učení , český jazyk , učení bez učitele , vyhledávací model , jazyková reprezentace , destilace znalostí , information retrieval , dense retrieval , contrastive learning , Czech language , unsupervised training , retrieval model , language representation , knowledge distillation
Citation
EICHLER, V. Vektorová reprezentace českého textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Strojové učení
Comittee
prof. Dr. Ing. Jan Černocký (předseda)
doc. Ing. Lukáš Burget, Ph.D. (člen)
doc. Ing. Vladimír Janoušek, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Jaroslav Rozman, Ph.D. (člen)
Ing. František Grézl, Ph.D. (člen)
Date of acceptance
2025-06-24
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
