Strojové učení s aktivním zapojením človeka pro textovou augmentacu v ére LLM
Loading...
Date
Authors
Advisor
Referee
Mark
P
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Rýchly pokrok v oblasti veľkých jazykových modelov (LLM) vyvolal záujem o ich potenciál zlepšiť procesy textovej augmentácie, najmä v porovnaní s tradičnými metódami založenými na ľudskej práci, ako je crowdsourcing. Táto dizertačná práca skúma integráciu LLM do textovej augmentácie s dôrazom na porovnanie LLM s ľudskými prístupmi z hľadiska nákladov, výkonu a efektívnosti. Naša výskumná práca sa zameriava na štyri kľúčové otázky: (1) účinnosťLLMv porovnaní s ľudskými pracovníkmi pri úlohách augmentácie dát, (2) prenositeľnosť techník ľudskej výpočtovej práce do LLM prostredníctvom promptovania, (3) analýzu nákladov a prínosov augmentácie založenej na LLM v porovnaní s tradičnými metódami a (4) vplyv stratégií výberu vzoriek na výkon modelov pri augmentácii založenej na LLM. Prostredníctvom rozsiahlych experimentov sme preukázali, že LLM dokážu generovať rôznorodejšie a validnejšie textové dáta ako ľudskí pracovníci, pričom výrazne znižujú náklady. Navyše sme zistili, že začlenenie techník inšpirovaných ľudským prístupom, ako sú nápovedy a reťazenie parafráz, môže ďalej zlepšiť výkon modelu, hoci vplyv na lexikálnu diverzitu zostáva obmedzený. Naše výsledky tiež ukazujú, že augmentácia pomocou LLM je obzvlášť prospešná v prostredí s malým množstvom zdrojov, kde je k dispozícii len niekoľko vzoriek. Ďalej sme vyhodnotili rôzne stratégie výberu vzoriek a zistili sme, že náhodný výber zostáva silným základným prístupom, zatiaľ čo stratégia založená na nápovedách prináša najlepšie výsledky pre výkon modelov na dátach mimo distribúcie. Výsledky tejto dizertačnej práce poukazujú na potenciál augmentácie textu založenej na LLM prekonať tradičné metódy za určitých podmienok a pripravujú cestu pre efektívnejšie a nákladovo úspornejšie postupy augmentácie dát v ére pokročilých jazykových modelov.
The rapid advancements in large language models (LLMs) have sparked interest in their potential to enhance data augmentation processes, particularly compared to traditional human-driven methods like crowdsourcing. This thesis investigates the integration of LLMs into textual augmentation, addressing how LLM-based augmentation compares to human-centred approaches regarding cost, performance, and effectiveness. Our research addresses four central questions: (1) the efficacy of LLMs versus human workers in data augmentation tasks, (2) the transferability of human computation techniques to LLM prompting, (3) the cost-benefit analysis of LLM-based augmentation compared to traditional methods, and (4) the impact of sample selection strategies on downstream model performance when using LLMs. Through extensive experimentation, we demonstrate that LLMs can generate more diverse and valid textual data than human workers while significantly reducing costs. Additionally, incorporating human-inspired prompting techniques, such as hints and chaining, can improve model performance, although the impact on lexical diversity remains limited. Our findings also reveal that LLM augmentation is particularly beneficial in low-resource settings where only a few seed samples are available. Furthermore, we evaluate various sample selection strategies and find that random sampling remains a strong baseline, while hint-based strategies yield the best results for out-of-distribution performance. The results of this thesis highlight the potential of LLM-based textual augmentation to surpass traditional methods under specific conditions and pave the way for more efficient and cost-effective data augmentation practices in the era of advanced language models.
The rapid advancements in large language models (LLMs) have sparked interest in their potential to enhance data augmentation processes, particularly compared to traditional human-driven methods like crowdsourcing. This thesis investigates the integration of LLMs into textual augmentation, addressing how LLM-based augmentation compares to human-centred approaches regarding cost, performance, and effectiveness. Our research addresses four central questions: (1) the efficacy of LLMs versus human workers in data augmentation tasks, (2) the transferability of human computation techniques to LLM prompting, (3) the cost-benefit analysis of LLM-based augmentation compared to traditional methods, and (4) the impact of sample selection strategies on downstream model performance when using LLMs. Through extensive experimentation, we demonstrate that LLMs can generate more diverse and valid textual data than human workers while significantly reducing costs. Additionally, incorporating human-inspired prompting techniques, such as hints and chaining, can improve model performance, although the impact on lexical diversity remains limited. Our findings also reveal that LLM augmentation is particularly beneficial in low-resource settings where only a few seed samples are available. Furthermore, we evaluate various sample selection strategies and find that random sampling remains a strong baseline, while hint-based strategies yield the best results for out-of-distribution performance. The results of this thesis highlight the potential of LLM-based textual augmentation to surpass traditional methods under specific conditions and pave the way for more efficient and cost-effective data augmentation practices in the era of advanced language models.
Description
Citation
ČEGIŇ, J. Strojové učení s aktivním zapojením človeka pro textovou augmentacu v ére LLM [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
prof. Ing. Jiří Jaroš, Ph.D. (předseda)
doc. RNDr. Martin Homola, PhD. (člen)
prof. Ing. Kristína Machová, Ph.D. (člen)
doc. RNDr. Pavel Smrž, Ph.D. (člen)
doc. RNDr. Petr Sojka, Ph.D. (člen)
Date of acceptance
2025-11-25
Defence
The student presented the goals and results that he achieved within the solution of the dissertation. The student has competently answered the questions of the committee members and reviewers and guests. The discussion is recorded on the discussion sheets, which are attached to the protocol. Number of discussion sheets: 3. The committee has agreed unanimously that the student has fulfilled the requirements for being awarded the academic title Ph.D.
The committee unanimously recommends, and the opponents support, to awarding the thesis the Dean's Award for an exceptionally high-quality dissertation because submitted in 4 years and published in 3 A* conferences.
Result of defence
práce byla úspěšně obhájena
