Generování dokumentace ke zdrojovému kódu v jazyce Python

but.committeedoc. Ing. František Zbořil, Ph.D. (předseda) Ing. Libor Polčák, Ph.D. (člen) doc. Mgr. Lukáš Holík, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen) Ing. Radek Hranický, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.cs
but.jazykslovenština (Slovak)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorSmrž, Pavelsk
dc.contributor.authorNovosád, Jurajsk
dc.contributor.refereeNosko, Svetozársk
dc.date.created2024cs
dc.description.abstractCieľom práce je adaptovať vybrané jazykové modely na doménových dátach a vytvoriť sys- tém, ktorý by umožnil ich použitie na bežne dostupnom hardware. Modely boli adaptované pre generovanie dokumentácie k nedokumentovanému zdrojovému kódu v programovacom jazyku Python, tak aby dodržiavali konvenciu Google Style. Prerekvizita adaptovania mo- delu bola získať doménové dáta a vhodne ich spracovať pre účely fine-tuningu modelu. Táto práca sa zameriava na fine-tuning modelov s ppočtom parametrov menej ako jedna mili- arda, z dôvodu umožnenia inferencie aj na bežne dostupnom hardware. Časťou práce bolo objektívne zhodnotiť kvalitu adaptovaných modelov. Z tohto dôvodu som vyvinul nástroj, ktorý na vybranom korpuse ohodnotí kvalitu generovanej dokumentácie na vybraných mo- deloch. Vyhodnotenie adaptovaných modelov ukázalo, že dosahujú porovnateľný výkon ako násobne väčšie modely trénované pre všeobecné úlohy, napríklad gpt-3.5-turbo-0125. Vý- sledkom práce je server, schopný horizontálneho škálovania, ktorý integruje možnosti nielen adaptovaných modelov cez ľahko použiteľné API.sk
dc.description.abstractThe aim of this work is to adapt selected language models on domain data and to develop a system that would allow their use on commonly available hardware. The models have been adapted to generate documentation for undocumented source code in the Python progra- mming language to follow the Google Style convention. A prerequisite of model adaptation was to obtain domain data and process it appropriately for the purpose of model fine-tuning. This work focuses on fine-tuning models with fewer than one billion parameters, for the sake of enabling inference even on commonly available hardware. Part of the work was to objectively evaluate the quality of the adapted models. For this reason, I developed a tool that evaluates the quality of the generated documentation on a selected corpus of models. The evaluation of the adapted models showed that they achieve comparable performance to multiply larger models for general tasks, such as gpt-3.5-turbo-0125. The result of this work is a server capable of horizontal scaling that integrates the capabilities of more than just the adapted models through an easy-to-use API.en
dc.description.markBcs
dc.identifier.citationNOVOSÁD, J. Generování dokumentace ke zdrojovému kódu v jazyce Python [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.cs
dc.identifier.other154278cs
dc.identifier.urihttp://hdl.handle.net/11012/246905
dc.language.isoskcs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectveľké jazykové modelysk
dc.subjectgenerovanie textusk
dc.subjectsequence 2 sequencesk
dc.subjecttransformerssk
dc.subjectHTTPsk
dc.subjectfastapisk
dc.subjecthuggingfacesk
dc.subjectPythonsk
dc.subjectBLEUsk
dc.subjectRougesk
dc.subjectMeteorsk
dc.subjectsentence-transformerssk
dc.subjectLarge language modelsen
dc.subjecttext generationen
dc.subjectsequence 2 sequenceen
dc.subjecttransformersen
dc.subjectHTTPen
dc.subjectfastapien
dc.subjecthuggingfaceen
dc.subjectPythonen
dc.subjectBLEUen
dc.subjectRougeen
dc.subjectMeteoren
dc.subjectsentence-transformersen
dc.titleGenerování dokumentace ke zdrojovému kódu v jazyce Pythonsk
dc.title.alternativeGenerating Documentation to Source Code in Pythonen
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2024-06-11cs
dcterms.modified2024-06-17-08:46:01cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid154278en
sync.item.dbtypeZPen
sync.item.insts2025.03.18 21:01:09en
sync.item.modts2025.01.17 15:04:49en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.29 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.zip
Size:
467.7 KB
Format:
Unknown data format
Description:
file appendix-1.zip
Loading...
Thumbnail Image
Name:
review_154278.html
Size:
9.85 KB
Format:
Hypertext Markup Language
Description:
file review_154278.html
Collections