Generování dokumentace ke zdrojovému kódu v jazyce Python

Loading...
Thumbnail Image
Date
Authors
Novosád, Juraj
ORCID
Mark
B
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Cieľom práce je adaptovať vybrané jazykové modely na doménových dátach a vytvoriť sys- tém, ktorý by umožnil ich použitie na bežne dostupnom hardware. Modely boli adaptované pre generovanie dokumentácie k nedokumentovanému zdrojovému kódu v programovacom jazyku Python, tak aby dodržiavali konvenciu Google Style. Prerekvizita adaptovania mo- delu bola získať doménové dáta a vhodne ich spracovať pre účely fine-tuningu modelu. Táto práca sa zameriava na fine-tuning modelov s ppočtom parametrov menej ako jedna mili- arda, z dôvodu umožnenia inferencie aj na bežne dostupnom hardware. Časťou práce bolo objektívne zhodnotiť kvalitu adaptovaných modelov. Z tohto dôvodu som vyvinul nástroj, ktorý na vybranom korpuse ohodnotí kvalitu generovanej dokumentácie na vybraných mo- deloch. Vyhodnotenie adaptovaných modelov ukázalo, že dosahujú porovnateľný výkon ako násobne väčšie modely trénované pre všeobecné úlohy, napríklad gpt-3.5-turbo-0125. Vý- sledkom práce je server, schopný horizontálneho škálovania, ktorý integruje možnosti nielen adaptovaných modelov cez ľahko použiteľné API.
The aim of this work is to adapt selected language models on domain data and to develop a system that would allow their use on commonly available hardware. The models have been adapted to generate documentation for undocumented source code in the Python progra- mming language to follow the Google Style convention. A prerequisite of model adaptation was to obtain domain data and process it appropriately for the purpose of model fine-tuning. This work focuses on fine-tuning models with fewer than one billion parameters, for the sake of enabling inference even on commonly available hardware. Part of the work was to objectively evaluate the quality of the adapted models. For this reason, I developed a tool that evaluates the quality of the generated documentation on a selected corpus of models. The evaluation of the adapted models showed that they achieve comparable performance to multiply larger models for general tasks, such as gpt-3.5-turbo-0125. The result of this work is a server capable of horizontal scaling that integrates the capabilities of more than just the adapted models through an easy-to-use API.
Description
Citation
NOVOSÁD, J. Generování dokumentace ke zdrojovému kódu v jazyce Python [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.
Document type
Document version
Date of access to the full text
Language of document
sk
Study field
Informační technologie
Comittee
doc. Ing. František Zbořil, Ph.D. (předseda) Ing. Libor Polčák, Ph.D. (člen) doc. Mgr. Lukáš Holík, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen) Ing. Radek Hranický, Ph.D. (člen)
Date of acceptance
2024-06-11
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO