Vektorová reprezentace českého textu

Loading...
Thumbnail Image

Date

Authors

Eichler, Vojtěch

Mark

B

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Tato diplomová práce představuje model Czechtriever, vyhledávací model navržený pro český jazyk a trénovaný bez anotovaných dat. Model vychází z architektury a metodologie Contrieveru a využívá kontrastivní učení k získání reprezentací textu přímo z neoanotovaných dat. Czechtriever je trénován na rozsáhlém korpusu českých textů a vyhodnocován vůči tradičním i neuronovým modelům na anotovaném datasetu historických textů. Experimenty ukazují, že Czechtriever překonává české i vícejazyčné baseline modely. Práce dále zkoumá možnost destilace znalostí z velkého jazykového modelu (Gemma2) do Czechtrieveru. Výsledky potvrzují, že kontrastivní učení s dostatečným množstvím dat a pečlivým návrhem může vést ke kvalitním vyhledávacím modelům i pro jazyky s nízkým množstvím zdrojů, jako je čeština.
This thesis presents Czechtriever, a retrieval model designed for the Czech language and trained without annotated data. The model is based on the architecture and methodology of Contriever and employs contrastive learning to obtain text representations directly from unannotated data. Czechtriever is trained on a large corpus of Czech texts and evaluated against both traditional and neural models using an annotated dataset of historical texts. Experiments show that Czechtriever outperforms both Czech and multilingual baseline models. The thesis also explores the possibility of distilling knowledge from a large language model (Gemma2) into Czechtriever. The results confirm that contrastive learning with sufficient data and careful design can yield high-quality retrieval models even for low-resource languages such as Czech.

Description

Citation

EICHLER, V. Vektorová reprezentace českého textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Strojové učení

Comittee

prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)

Date of acceptance

2025-06-24

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO