Taxonomie pro LLM v komponentě Kafka projektu Apache Camel

Tato práce se zaměřuje na koncept umělé inteligence, konkrétně na velké jazykové modely (Large Language Models). Popisuje základní principy neuronových sítí a fáze trénování v oblasti umělé inteligence, strojového učení a jazykových modelů, přičemž se zabývá i výzvami efektivního trénování neuronových sítí. Práce dále zkoumá komponentu Kafka pro Apache Camel, její význam a využitelnost v kontextu trénování jazykových modelů. Hlavní část této práce se věnuje tvorbě taxonomie, která je klíčovým prvkem v procesu učení. Program pro extrakci a Annotation API mají produktovou kvalitu a byly napsány v jazyce Java. Práce ukazuje proces generování syntetických dat na základě poskytnuté kvalitativní taxonomie pomocí nástroje InstructLab a analýzu výsledků. Součástí práce je také ukázka procesu nasazení taxonomie na serveru Hugging Face.
This thesis focuses on the concept of artificial intelligence, specifically on Large Language Models. It describes the core principles of neural networks and the stages of training in artificial intelligence, machine learning, and language models, while addressing the challenges of efficient neural network training. Additionally, the thesis explores the Kafka component for Apache Camel, its significance, and applicability in the context of training language models. The main part of this thesis details the creation of a taxonomy, the most critical element in the training process. The extractor program and the Annotation API have product quality and was written in Java. This thesis shows the process of generating synthetic data based on the provided qualitative taxonomy using InstructLab and analysis of the results. Thesis also shows deployment process for the taxonomy on Hugging Face server.

Citation

KONOVALOV, N. Taxonomie pro LLM v komponentě Kafka projektu Apache Camel [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.

Language of document

en

Study field

bez specializace

Comittee

doc. Ing. Jan Jeřábek, Ph.D. (předseda) JUDr. Ing. František Kasl, Ph.D. (místopředseda) Ing. Eva Holasová (člen) Ing. Michal Skořepa, Ph.D. (člen) Ing. Adrián Tomašov, Ph.D. (člen) RNDr. Ing. Pavel Šeda, Ph.D. (člen)

Date of acceptance

2025-06-17

Defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta: Jak výrazné zlepšení kvality generovaného textu odhadujete v případě použití větší datové množiny a trénování s vyšším počtem iterací? Student obhájil bakalářskou práci s výhradami a odpověděl na otázky členů komise a oponenta.

Result of defence

práce byla úspěšně obhájena

URI

http://hdl.handle.net/11012/252973

Collections

2025

Citace PRO

Full item page

Taxonomie pro LLM v komponentě Kafka projektu Apache Camel

Files

Date

Authors

Advisor

Referee

Mark

Journal Title

Journal ISSN

Volume Title

Publisher

ORCID

Abstract

Description

Keywords

Citation

Document type

Document version

Date of access to the full text

Language of document

Study field

Comittee

Date of acceptance

Defence

Result of defence

DOI

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO