Vektorová reprezentace českého textu
| but.committee | prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) | cs |
| but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B. | cs |
| but.jazyk | angličtina (English) | |
| but.program | Informační technologie a umělá inteligence | cs |
| but.result | práce byla úspěšně obhájena | cs |
| dc.contributor.advisor | Beneš, Karel | en |
| dc.contributor.author | Eichler, Vojtěch | en |
| dc.contributor.referee | Fajčík, Martin | en |
| dc.date.created | 2025 | cs |
| dc.description.abstract | Tato diplomová práce představuje model Czechtriever, vyhledávací model navržený pro český jazyk a trénovaný bez anotovaných dat. Model vychází z architektury a metodologie Contrieveru a využívá kontrastivní učení k získání reprezentací textu přímo z neoanotovaných dat. Czechtriever je trénován na rozsáhlém korpusu českých textů a vyhodnocován vůči tradičním i neuronovým modelům na anotovaném datasetu historických textů. Experimenty ukazují, že Czechtriever překonává české i vícejazyčné baseline modely. Práce dále zkoumá možnost destilace znalostí z velkého jazykového modelu (Gemma2) do Czechtrieveru. Výsledky potvrzují, že kontrastivní učení s dostatečným množstvím dat a pečlivým návrhem může vést ke kvalitním vyhledávacím modelům i pro jazyky s nízkým množstvím zdrojů, jako je čeština. | en |
| dc.description.abstract | This thesis presents Czechtriever, a retrieval model designed for the Czech language and trained without annotated data. The model is based on the architecture and methodology of Contriever and employs contrastive learning to obtain text representations directly from unannotated data. Czechtriever is trained on a large corpus of Czech texts and evaluated against both traditional and neural models using an annotated dataset of historical texts. Experiments show that Czechtriever outperforms both Czech and multilingual baseline models. The thesis also explores the possibility of distilling knowledge from a large language model (Gemma2) into Czechtriever. The results confirm that contrastive learning with sufficient data and careful design can yield high-quality retrieval models even for low-resource languages such as Czech. | cs |
| dc.description.mark | B | cs |
| dc.identifier.citation | EICHLER, V. Vektorová reprezentace českého textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025. | cs |
| dc.identifier.other | 164716 | cs |
| dc.identifier.uri | http://hdl.handle.net/11012/254963 | |
| dc.language.iso | en | cs |
| dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
| dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
| dc.subject | vyhledávání informací | en |
| dc.subject | husté vyhledávání | en |
| dc.subject | kontrastivní učení | en |
| dc.subject | český jazyk | en |
| dc.subject | učení bez učitele | en |
| dc.subject | vyhledávací model | en |
| dc.subject | jazyková reprezentace | en |
| dc.subject | destilace znalostí | en |
| dc.subject | information retrieval | cs |
| dc.subject | dense retrieval | cs |
| dc.subject | contrastive learning | cs |
| dc.subject | Czech language | cs |
| dc.subject | unsupervised training | cs |
| dc.subject | retrieval model | cs |
| dc.subject | language representation | cs |
| dc.subject | knowledge distillation | cs |
| dc.title | Vektorová reprezentace českého textu | en |
| dc.title.alternative | Vector representation of Czech text | cs |
| dc.type | Text | cs |
| dc.type.driver | masterThesis | en |
| dc.type.evskp | diplomová práce | cs |
| dcterms.dateAccepted | 2025-06-24 | cs |
| dcterms.modified | 2025-06-24-10:25:16 | cs |
| eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
| sync.item.dbid | 164716 | en |
| sync.item.dbtype | ZP | en |
| sync.item.insts | 2025.08.27 02:04:28 | en |
| sync.item.modts | 2025.08.26 19:45:34 | en |
| thesis.discipline | Strojové učení | cs |
| thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
| thesis.level | Inženýrský | cs |
| thesis.name | Ing. | cs |
