Strojové učení s aktivním zapojením človeka pro textovou augmentacu v ére LLM

but.committeeprof. Ing. Jiří Jaroš, Ph.D. (předseda) doc. RNDr. Martin Homola, PhD. (člen) prof. Ing. Kristína Machová, Ph.D. (člen) doc. RNDr. Pavel Smrž, Ph.D. (člen) doc. RNDr. Petr Sojka, Ph.D. (člen)cs
but.defenceThe student presented the goals and results that he achieved within the solution of the dissertation. The student has competently answered the questions of the committee members and reviewers and guests. The discussion is recorded on the discussion sheets, which are attached to the protocol. Number of discussion sheets: 3. The committee has agreed unanimously that the student has fulfilled the requirements for being awarded the academic title Ph.D. The committee unanimously recommends, and the opponents support, to awarding the thesis the Dean's Award for an exceptionally high-quality dissertation because submitted in 4 years and published in 3 A* conferences.cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorŠimko, Jakuben
dc.contributor.authorČegiň, Jánen
dc.contributor.refereeMachová, Kristínaen
dc.contributor.refereeScarton, Carolinaen
dc.date.accessioned2025-12-05T09:28:08Z
dc.date.created2025cs
dc.description.abstractRýchly pokrok v oblasti veľkých jazykových modelov (LLM) vyvolal záujem o ich potenciál zlepšiť procesy textovej augmentácie, najmä v porovnaní s tradičnými metódami založenými na ľudskej práci, ako je crowdsourcing. Táto dizertačná práca skúma integráciu LLM do textovej augmentácie s dôrazom na porovnanie LLM s ľudskými prístupmi z hľadiska nákladov, výkonu a efektívnosti. Naša výskumná práca sa zameriava na štyri kľúčové otázky: (1) účinnosťLLMv porovnaní s ľudskými pracovníkmi pri úlohách augmentácie dát, (2) prenositeľnosť techník ľudskej výpočtovej práce do LLM prostredníctvom promptovania, (3) analýzu nákladov a prínosov augmentácie založenej na LLM v porovnaní s tradičnými metódami a (4) vplyv stratégií výberu vzoriek na výkon modelov pri augmentácii založenej na LLM. Prostredníctvom rozsiahlych experimentov sme preukázali, že LLM dokážu generovať rôznorodejšie a validnejšie textové dáta ako ľudskí pracovníci, pričom výrazne znižujú náklady. Navyše sme zistili, že začlenenie techník inšpirovaných ľudským prístupom, ako sú nápovedy a reťazenie parafráz, môže ďalej zlepšiť výkon modelu, hoci vplyv na lexikálnu diverzitu zostáva obmedzený. Naše výsledky tiež ukazujú, že augmentácia pomocou LLM je obzvlášť prospešná v prostredí s malým množstvom zdrojov, kde je k dispozícii len niekoľko vzoriek. Ďalej sme vyhodnotili rôzne stratégie výberu vzoriek a zistili sme, že náhodný výber zostáva silným základným prístupom, zatiaľ čo stratégia založená na nápovedách prináša najlepšie výsledky pre výkon modelov na dátach mimo distribúcie. Výsledky tejto dizertačnej práce poukazujú na potenciál augmentácie textu založenej na LLM prekonať tradičné metódy za určitých podmienok a pripravujú cestu pre efektívnejšie a nákladovo úspornejšie postupy augmentácie dát v ére pokročilých jazykových modelov.en
dc.description.abstractThe rapid advancements in large language models (LLMs) have sparked interest in their potential to enhance data augmentation processes, particularly compared to traditional human-driven methods like crowdsourcing. This thesis investigates the integration of LLMs into textual augmentation, addressing how LLM-based augmentation compares to human-centred approaches regarding cost, performance, and effectiveness. Our research addresses four central questions: (1) the efficacy of LLMs versus human workers in data augmentation tasks, (2) the transferability of human computation techniques to LLM prompting, (3) the cost-benefit analysis of LLM-based augmentation compared to traditional methods, and (4) the impact of sample selection strategies on downstream model performance when using LLMs. Through extensive experimentation, we demonstrate that LLMs can generate more diverse and valid textual data than human workers while significantly reducing costs. Additionally, incorporating human-inspired prompting techniques, such as hints and chaining, can improve model performance, although the impact on lexical diversity remains limited. Our findings also reveal that LLM augmentation is particularly beneficial in low-resource settings where only a few seed samples are available. Furthermore, we evaluate various sample selection strategies and find that random sampling remains a strong baseline, while hint-based strategies yield the best results for out-of-distribution performance. The results of this thesis highlight the potential of LLM-based textual augmentation to surpass traditional methods under specific conditions and pave the way for more efficient and cost-effective data augmentation practices in the era of advanced language models.cs
dc.description.markPcs
dc.identifier.citationČEGIŇ, J. Strojové učení s aktivním zapojením človeka pro textovou augmentacu v ére LLM [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other169625cs
dc.identifier.urihttps://hdl.handle.net/11012/255641
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectaugmentácia textoven
dc.subjectveľké jazykové modelyen
dc.subjectaktívne zapojenie človekaen
dc.subjectstrojové učenieen
dc.subjectanalýza modeloven
dc.subjecttext augmentationcs
dc.subjectlarge language modelscs
dc.subjecthuman in the loopcs
dc.subjectmachine learningcs
dc.subjectmodel analysiscs
dc.titleStrojové učení s aktivním zapojením človeka pro textovou augmentacu v ére LLMen
dc.title.alternativeMachine Learning With Human in the Loop for Textual Augmentation in the Era of Llmscs
dc.typeTextcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
dcterms.dateAccepted2025-11-25cs
dcterms.modified2025-11-25-11:14:20cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid169625en
sync.item.dbtypeZPen
sync.item.insts2025.12.05 10:28:08en
sync.item.modts2025.11.26 05:32:06en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelDoktorskýcs
thesis.namePh.D.cs

Files

Original bundle

Now showing 1 - 5 of 6
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
9.41 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.pdf
Size:
24.95 KB
Format:
Adobe Portable Document Format
Description:
file appendix-1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-Supervisors review.pdf
Size:
46.56 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Vedouci prace-Supervisors review.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-Machova_CeginEvaluation_PhD_anonymizovano.pdf
Size:
141.2 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Oponent prace-Machova_CeginEvaluation_PhD_anonymizovano.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-Scarton_Cegin_Review_anonymizovano.pdf
Size:
137.72 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Oponent prace-Scarton_Cegin_Review_anonymizovano.pdf

Collections