Taxonomie pro LLM v komponentě Kafka projektu Apache Camel
Loading...
Date
Authors
Konovalov, Nikita
Advisor
Referee
Mark
D
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií
ORCID
Abstract
Tato práce se zaměřuje na koncept umělé inteligence, konkrétně na velké jazykové modely (Large Language Models). Popisuje základní principy neuronových sítí a fáze trénování v oblasti umělé inteligence, strojového učení a jazykových modelů, přičemž se zabývá i výzvami efektivního trénování neuronových sítí. Práce dále zkoumá komponentu Kafka pro Apache Camel, její význam a využitelnost v kontextu trénování jazykových modelů. Hlavní část této práce se věnuje tvorbě taxonomie, která je klíčovým prvkem v procesu učení. Program pro extrakci a Annotation API mají produktovou kvalitu a byly napsány v jazyce Java. Práce ukazuje proces generování syntetických dat na základě poskytnuté kvalitativní taxonomie pomocí nástroje InstructLab a analýzu výsledků. Součástí práce je také ukázka procesu nasazení taxonomie na serveru Hugging Face.
This thesis focuses on the concept of artificial intelligence, specifically on Large Language Models. It describes the core principles of neural networks and the stages of training in artificial intelligence, machine learning, and language models, while addressing the challenges of efficient neural network training. Additionally, the thesis explores the Kafka component for Apache Camel, its significance, and applicability in the context of training language models. The main part of this thesis details the creation of a taxonomy, the most critical element in the training process. The extractor program and the Annotation API have product quality and was written in Java. This thesis shows the process of generating synthetic data based on the provided qualitative taxonomy using InstructLab and analysis of the results. Thesis also shows deployment process for the taxonomy on Hugging Face server.
This thesis focuses on the concept of artificial intelligence, specifically on Large Language Models. It describes the core principles of neural networks and the stages of training in artificial intelligence, machine learning, and language models, while addressing the challenges of efficient neural network training. Additionally, the thesis explores the Kafka component for Apache Camel, its significance, and applicability in the context of training language models. The main part of this thesis details the creation of a taxonomy, the most critical element in the training process. The extractor program and the Annotation API have product quality and was written in Java. This thesis shows the process of generating synthetic data based on the provided qualitative taxonomy using InstructLab and analysis of the results. Thesis also shows deployment process for the taxonomy on Hugging Face server.
Description
Keywords
Umělá inteligence , strojové učení , hluboké učení , velký jazykový model , zpracování přirozeného jazyka , dataset , model , komponenta Kafka , Apache Camel , útržek kódu , syntetická data , InstructLab , Hugging Face , taxonomie. , Artificial Intelligence , Machine Learning , Deep Learning , Large Language Model , Natural Language Processing , dataset , model , Kafka component , Apache Camel , code snippet , InstructLab , synthetic data , Hugging Face , taxonomy.
Citation
KONOVALOV, N. Taxonomie pro LLM v komponentě Kafka projektu Apache Camel [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
bez specializace
Comittee
doc. Ing. Jan Jeřábek, Ph.D. (předseda)
JUDr. Ing. František Kasl, Ph.D. (místopředseda)
Ing. Eva Holasová (člen)
Ing. Michal Skořepa, Ph.D. (člen)
Ing. Adrián Tomašov, Ph.D. (člen)
RNDr. Ing. Pavel Šeda, Ph.D. (člen)
Date of acceptance
2025-06-17
Defence
Student prezentoval výsledky své práce a komise byla seznámena s posudky.
Otázky oponenta:
Jak výrazné zlepšení kvality generovaného textu odhadujete v případě použití větší datové množiny a trénování s vyšším počtem iterací?
Student obhájil bakalářskou práci s výhradami a odpověděl na otázky členů komise a oponenta.
Result of defence
práce byla úspěšně obhájena
