Vektorová reprezentace českého textu

but.committeeprof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.cs
but.jazykangličtina (English)
but.programInformační technologie a umělá inteligencecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorBeneš, Karelen
dc.contributor.authorEichler, Vojtěchen
dc.contributor.refereeFajčík, Martinen
dc.date.created2025cs
dc.description.abstractTato diplomová práce představuje model Czechtriever, vyhledávací model navržený pro český jazyk a trénovaný bez anotovaných dat. Model vychází z architektury a metodologie Contrieveru a využívá kontrastivní učení k získání reprezentací textu přímo z neoanotovaných dat. Czechtriever je trénován na rozsáhlém korpusu českých textů a vyhodnocován vůči tradičním i neuronovým modelům na anotovaném datasetu historických textů. Experimenty ukazují, že Czechtriever překonává české i vícejazyčné baseline modely. Práce dále zkoumá možnost destilace znalostí z velkého jazykového modelu (Gemma2) do Czechtrieveru. Výsledky potvrzují, že kontrastivní učení s dostatečným množstvím dat a pečlivým návrhem může vést ke kvalitním vyhledávacím modelům i pro jazyky s nízkým množstvím zdrojů, jako je čeština.en
dc.description.abstractThis thesis presents Czechtriever, a retrieval model designed for the Czech language and trained without annotated data. The model is based on the architecture and methodology of Contriever and employs contrastive learning to obtain text representations directly from unannotated data. Czechtriever is trained on a large corpus of Czech texts and evaluated against both traditional and neural models using an annotated dataset of historical texts. Experiments show that Czechtriever outperforms both Czech and multilingual baseline models. The thesis also explores the possibility of distilling knowledge from a large language model (Gemma2) into Czechtriever. The results confirm that contrastive learning with sufficient data and careful design can yield high-quality retrieval models even for low-resource languages such as Czech.cs
dc.description.markBcs
dc.identifier.citationEICHLER, V. Vektorová reprezentace českého textu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other164716cs
dc.identifier.urihttp://hdl.handle.net/11012/254963
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectvyhledávání informacíen
dc.subjecthusté vyhledáváníen
dc.subjectkontrastivní učeníen
dc.subjectčeský jazyken
dc.subjectučení bez učiteleen
dc.subjectvyhledávací modelen
dc.subjectjazyková reprezentaceen
dc.subjectdestilace znalostíen
dc.subjectinformation retrievalcs
dc.subjectdense retrievalcs
dc.subjectcontrastive learningcs
dc.subjectCzech languagecs
dc.subjectunsupervised trainingcs
dc.subjectretrieval modelcs
dc.subjectlanguage representationcs
dc.subjectknowledge distillationcs
dc.titleVektorová reprezentace českého textuen
dc.title.alternativeVector representation of Czech textcs
dc.typeTextcs
dc.type.drivermasterThesisen
dc.type.evskpdiplomová prácecs
dcterms.dateAccepted2025-06-24cs
dcterms.modified2025-06-24-10:25:16cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid164716en
sync.item.dbtypeZPen
sync.item.insts2025.08.27 02:04:28en
sync.item.modts2025.08.26 19:45:34en
thesis.disciplineStrojové učenícs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelInženýrskýcs
thesis.nameIng.cs

Files

Original bundle

Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
7.21 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
review_164716.html
Size:
12.84 KB
Format:
Hypertext Markup Language
Description:
file review_164716.html

Collections