Velké jazykové modely pro generování kódu se zaměřením na vestavěné systémy

Vadovič, Matej

Velké jazykové modely pro generování kódu se zaměřením na vestavěné systémy

but.committee	doc. Dr. Ing. Dušan Kolář (předseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Jaroslav Dytrych, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) Ing. Marcela Zachariášová, Ph.D. (člen)	cs
but.defence	Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.	cs
but.jazyk	slovenština (Slovak)
but.program	Informační technologie	cs
but.result	práce byla úspěšně obhájena	cs
dc.contributor.advisor	Smrž, Pavel	sk
dc.contributor.author	Vadovič, Matej	sk
dc.contributor.referee	Nosko, Svetozár	sk
dc.date.created	2024	cs
dc.description.abstract	Cieľom tejto práce bola adaptácia predtrénovaného jazykového modelu pre účely generovania kódu v oblasti vstavaných systémov. V práci je predstavená nová dátová sada pre ladenie modelov generovania kódu, ktorá obsahuje 50 tisíc dvojíc zdrojového kódu a komentárov zameraných na oblasť programovania vstavaných systémov. Táto sada je zložená zo zozbieraného zdrojového kódu z platformy GitHub. Na dátach nového korpusu boli ladené dva nové jazykové modely pre generovanie kódu založené na predtrénovaných modeloch s architektúrou transformer. Model MicroCoder je založený na modeli CodeLLaMA-Instruct 7B a pri jeho ladení bola využitá technika QLoRA pre minimalizáciu výpočtových nárokov ladenia. Druhý model, MicroCoderFIM, je založený na modeli StarCoderBase 1B a podporuje vyplňovanie kódu na základe okolia (fill-in-the-middle). Jednotlivé modely boli porovnávané na základe metrík BLEU, CodeBLEU, ChrF++ a ROUGE-L. Model MicroCoderFIM dosahuje najlepšie výsledky adaptácie na novú úlohu, pričom zaznamenal viac ako 120% zlepšenie vo všetkých meraných metrikách. Váhy modelov spolu s novou dátovou sadou sú voľne prístupné na verejnom úložisku.	sk
dc.description.abstract	The goal of this work was to adapt a pre-trained language model for the purpose of generating code in the field of embedded systems. The work introduces a new dataset for fine-tuning code generation models, consisting of 50,000 pairs of source code and comments focused on embedded systems programming. This dataset is composed of collected source code from the GitHub platform. Two new language models for code generation, based on transformer architecture pre-trained models, were fine-tuned on the data of the new corpus. Model MicroCoder is based on the CodeLLaMA-Instruct 7B model, and during its fine-tuning, the QLoRA technique was used to minimize computational requirements. The second model, MicroCoderFIM, is based on the StarCoderBase 1B model and supports code infilling. The individual models were compared based on BLEU, CodeBLEU, ChrF++, and ROUGE-L metrics. Model MicroCoderFIM achieves the best adaptation results to the new task, with over 120% improvement in all measured metrics. The weights of the models along with the new dataset are freely accessible on a public repository.	en
dc.description.mark	B	cs
dc.identifier.citation	VADOVIČ, M. Velké jazykové modely pro generování kódu se zaměřením na vestavěné systémy [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.	cs
dc.identifier.other	154306	cs
dc.identifier.uri	http://hdl.handle.net/11012/247460
dc.language.iso	sk	cs
dc.publisher	Vysoké učení technické v Brně. Fakulta informačních technologií	cs
dc.rights	Standardní licenční smlouva - přístup k plnému textu bez omezení	cs
dc.subject	veľké jazykové modely	sk
dc.subject	generovanie kódu	sk
dc.subject	programovanie vstavaných systémov	sk
dc.subject	transformer	sk
dc.subject	dátová sada	sk
dc.subject	CodeLlama	sk
dc.subject	StarCoderBase	sk
dc.subject	large language models	en
dc.subject	code generation	en
dc.subject	embedded code	en
dc.subject	transformer	en
dc.subject	dataset	en
dc.subject	CodeLlama	en
dc.subject	StarCoderBase	en
dc.title	Velké jazykové modely pro generování kódu se zaměřením na vestavěné systémy	sk
dc.title.alternative	Large Language Models for Generating Code Focusing on Embedded Systems	en
dc.type	Text	cs
dc.type.driver	bachelorThesis	en
dc.type.evskp	bakalářská práce	cs
dcterms.dateAccepted	2024-06-12	cs
dcterms.modified	2024-06-17-08:45:31	cs
eprints.affiliatedInstitution.faculty	Fakulta informačních technologií	cs
sync.item.dbid	154306	en
sync.item.dbtype	ZP	en
sync.item.insts	2025.03.18 21:01:27	en
sync.item.modts	2025.01.15 14:25:55	en
thesis.discipline	Informační technologie	cs
thesis.grantor	Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií	cs
thesis.level	Bakalářský	cs
thesis.name	Bc.	cs

Files

Original bundle

Now showing 1 - 2 of 2

Name:: final-thesis.pdf
Size:: 3.63 MB
Format:: Adobe Portable Document Format
Description:: file final-thesis.pdf

Download

Name:: review_154306.html
Size:: 9.34 KB
Format:: Hypertext Markup Language
Description:: file review_154306.html

Download

Collections

2024