Strojové učení s aktivním zapojením človeka pro textovou augmentacu v ére LLM
| but.committee | prof. Ing. Jiří Jaroš, Ph.D. (předseda) doc. RNDr. Martin Homola, PhD. (člen) prof. Ing. Kristína Machová, Ph.D. (člen) doc. RNDr. Pavel Smrž, Ph.D. (člen) doc. RNDr. Petr Sojka, Ph.D. (člen) | cs |
| but.defence | The student presented the goals and results that he achieved within the solution of the dissertation. The student has competently answered the questions of the committee members and reviewers and guests. The discussion is recorded on the discussion sheets, which are attached to the protocol. Number of discussion sheets: 3. The committee has agreed unanimously that the student has fulfilled the requirements for being awarded the academic title Ph.D. The committee unanimously recommends, and the opponents support, to awarding the thesis the Dean's Award for an exceptionally high-quality dissertation because submitted in 4 years and published in 3 A* conferences. | cs |
| but.jazyk | angličtina (English) | |
| but.program | Informační technologie | cs |
| but.result | práce byla úspěšně obhájena | cs |
| dc.contributor.advisor | Šimko, Jakub | en |
| dc.contributor.author | Čegiň, Ján | en |
| dc.contributor.referee | Machová, Kristína | en |
| dc.contributor.referee | Scarton, Carolina | en |
| dc.date.accessioned | 2025-12-05T09:28:08Z | |
| dc.date.created | 2025 | cs |
| dc.description.abstract | Rýchly pokrok v oblasti veľkých jazykových modelov (LLM) vyvolal záujem o ich potenciál zlepšiť procesy textovej augmentácie, najmä v porovnaní s tradičnými metódami založenými na ľudskej práci, ako je crowdsourcing. Táto dizertačná práca skúma integráciu LLM do textovej augmentácie s dôrazom na porovnanie LLM s ľudskými prístupmi z hľadiska nákladov, výkonu a efektívnosti. Naša výskumná práca sa zameriava na štyri kľúčové otázky: (1) účinnosťLLMv porovnaní s ľudskými pracovníkmi pri úlohách augmentácie dát, (2) prenositeľnosť techník ľudskej výpočtovej práce do LLM prostredníctvom promptovania, (3) analýzu nákladov a prínosov augmentácie založenej na LLM v porovnaní s tradičnými metódami a (4) vplyv stratégií výberu vzoriek na výkon modelov pri augmentácii založenej na LLM. Prostredníctvom rozsiahlych experimentov sme preukázali, že LLM dokážu generovať rôznorodejšie a validnejšie textové dáta ako ľudskí pracovníci, pričom výrazne znižujú náklady. Navyše sme zistili, že začlenenie techník inšpirovaných ľudským prístupom, ako sú nápovedy a reťazenie parafráz, môže ďalej zlepšiť výkon modelu, hoci vplyv na lexikálnu diverzitu zostáva obmedzený. Naše výsledky tiež ukazujú, že augmentácia pomocou LLM je obzvlášť prospešná v prostredí s malým množstvom zdrojov, kde je k dispozícii len niekoľko vzoriek. Ďalej sme vyhodnotili rôzne stratégie výberu vzoriek a zistili sme, že náhodný výber zostáva silným základným prístupom, zatiaľ čo stratégia založená na nápovedách prináša najlepšie výsledky pre výkon modelov na dátach mimo distribúcie. Výsledky tejto dizertačnej práce poukazujú na potenciál augmentácie textu založenej na LLM prekonať tradičné metódy za určitých podmienok a pripravujú cestu pre efektívnejšie a nákladovo úspornejšie postupy augmentácie dát v ére pokročilých jazykových modelov. | en |
| dc.description.abstract | The rapid advancements in large language models (LLMs) have sparked interest in their potential to enhance data augmentation processes, particularly compared to traditional human-driven methods like crowdsourcing. This thesis investigates the integration of LLMs into textual augmentation, addressing how LLM-based augmentation compares to human-centred approaches regarding cost, performance, and effectiveness. Our research addresses four central questions: (1) the efficacy of LLMs versus human workers in data augmentation tasks, (2) the transferability of human computation techniques to LLM prompting, (3) the cost-benefit analysis of LLM-based augmentation compared to traditional methods, and (4) the impact of sample selection strategies on downstream model performance when using LLMs. Through extensive experimentation, we demonstrate that LLMs can generate more diverse and valid textual data than human workers while significantly reducing costs. Additionally, incorporating human-inspired prompting techniques, such as hints and chaining, can improve model performance, although the impact on lexical diversity remains limited. Our findings also reveal that LLM augmentation is particularly beneficial in low-resource settings where only a few seed samples are available. Furthermore, we evaluate various sample selection strategies and find that random sampling remains a strong baseline, while hint-based strategies yield the best results for out-of-distribution performance. The results of this thesis highlight the potential of LLM-based textual augmentation to surpass traditional methods under specific conditions and pave the way for more efficient and cost-effective data augmentation practices in the era of advanced language models. | cs |
| dc.description.mark | P | cs |
| dc.identifier.citation | ČEGIŇ, J. Strojové učení s aktivním zapojením človeka pro textovou augmentacu v ére LLM [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025. | cs |
| dc.identifier.other | 169625 | cs |
| dc.identifier.uri | https://hdl.handle.net/11012/255641 | |
| dc.language.iso | en | cs |
| dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
| dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
| dc.subject | augmentácia textov | en |
| dc.subject | veľké jazykové modely | en |
| dc.subject | aktívne zapojenie človeka | en |
| dc.subject | strojové učenie | en |
| dc.subject | analýza modelov | en |
| dc.subject | text augmentation | cs |
| dc.subject | large language models | cs |
| dc.subject | human in the loop | cs |
| dc.subject | machine learning | cs |
| dc.subject | model analysis | cs |
| dc.title | Strojové učení s aktivním zapojením človeka pro textovou augmentacu v ére LLM | en |
| dc.title.alternative | Machine Learning With Human in the Loop for Textual Augmentation in the Era of Llms | cs |
| dc.type | Text | cs |
| dc.type.driver | doctoralThesis | en |
| dc.type.evskp | dizertační práce | cs |
| dcterms.dateAccepted | 2025-11-25 | cs |
| dcterms.modified | 2025-11-25-11:14:20 | cs |
| eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
| sync.item.dbid | 169625 | en |
| sync.item.dbtype | ZP | en |
| sync.item.insts | 2025.12.05 10:28:08 | en |
| sync.item.modts | 2025.11.26 05:32:06 | en |
| thesis.discipline | Informační technologie | cs |
| thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
| thesis.level | Doktorský | cs |
| thesis.name | Ph.D. | cs |
Files
Original bundle
1 - 5 of 6
Loading...
- Name:
- final-thesis.pdf
- Size:
- 9.41 MB
- Format:
- Adobe Portable Document Format
- Description:
- file final-thesis.pdf
Loading...
- Name:
- appendix-1.pdf
- Size:
- 24.95 KB
- Format:
- Adobe Portable Document Format
- Description:
- file appendix-1.pdf
Loading...
- Name:
- Posudek-Vedouci prace-Supervisors review.pdf
- Size:
- 46.56 KB
- Format:
- Adobe Portable Document Format
- Description:
- file Posudek-Vedouci prace-Supervisors review.pdf
Loading...
- Name:
- Posudek-Oponent prace-Machova_CeginEvaluation_PhD_anonymizovano.pdf
- Size:
- 141.2 KB
- Format:
- Adobe Portable Document Format
- Description:
- file Posudek-Oponent prace-Machova_CeginEvaluation_PhD_anonymizovano.pdf
Loading...
- Name:
- Posudek-Oponent prace-Scarton_Cegin_Review_anonymizovano.pdf
- Size:
- 137.72 KB
- Format:
- Adobe Portable Document Format
- Description:
- file Posudek-Oponent prace-Scarton_Cegin_Review_anonymizovano.pdf
