Large language models for analyzing user-agent conversations
| but.committee | prof. Ing. Adam Herout, Ph.D. (předseda) Dr. Ing. Petr Peringer (člen) Ing. Matěj Grégr, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. Jiří Matoušek, Ph.D. (člen) | cs |
| but.defence | Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. | cs |
| but.jazyk | angličtina (English) | |
| but.program | Informační technologie | cs |
| but.result | práce byla úspěšně obhájena | cs |
| dc.contributor.advisor | Kesiraju, Santosh | en |
| dc.contributor.author | Yeroma, Vladyslav | en |
| dc.contributor.referee | Sedláček, Šimon | en |
| dc.date.created | 2025 | cs |
| dc.description.abstract | Používání velkých jazykových modelů (LLM) pro analýzu konverzace se výrazně rozšířilo v různých odvětvích. Jejich spolehlivost však zůstává sporná kvůli přítomnosti halucinací, chybných interpretací nebo vymyšlených odpovědí. Tento článek zkoumá GPT-4o pro automatickou analýzu reálných konverzací v oblasti péče o zákazníky mezi uživateli a agenty. Konkrétně hodnotíme GPT-4o pro zodpovídání otázek na základě konverzací mezi uživatelem a agentem a následnou pravdivost vygenerovaných odpovědí pomocí GPT-4o jako posuzovatele. Výsledky obou kroků porovnáváme s lidskými anotačními posudky. Uvádíme kategorie halucinací a analýzu chybných úsudků LLM. Naše zjištění poukazují na klíčové oblasti, ve kterých LLM selhávají, a zdůrazňují potřebu zdokonalených verifikačních rámců pro zvýšení jejich spolehlivosti v reálných aplikacích. | en |
| dc.description.abstract | The use of large language models (LLMs) for conversation analysis has gained significant traction in various industries. However, their reliability remains questionable due to the presence of hallucinations, misinterpretations, or fabricated responses. This paper explores GPT-4o for the automatic analysis of real-world customer care conversations between users and agents. We specifically evaluate GPT-4o for question answering based on user--agent conversations and the subsequent veracity of the generated answers using GPT-4o as a judge. The results of both steps are compared against human annotation judgments. We introduce hallucination categories and the analysis of LLM misjudgments. Our findings highlight key areas where LLMs fail, emphasising the need for improved verification frameworks to enhance their reliability in real-world applications. | cs |
| dc.description.mark | C | cs |
| dc.identifier.citation | YEROMA, V. Large language models for analyzing user-agent conversations [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025. | cs |
| dc.identifier.other | 164213 | cs |
| dc.identifier.uri | http://hdl.handle.net/11012/253726 | |
| dc.language.iso | en | cs |
| dc.publisher | Vysoké učení technické v Brně. Fakulta informačních technologií | cs |
| dc.rights | Standardní licenční smlouva - přístup k plnému textu bez omezení | cs |
| dc.subject | Velké jazykové modely | en |
| dc.subject | analýza konverzací | en |
| dc.subject | uživatelsko--agentní komunikace | en |
| dc.subject | zpracování přirozeného jazyka | en |
| dc.subject | anotace dat | en |
| dc.subject | verifikační rámce | en |
| dc.subject | LLM jako posuzovatel | en |
| dc.subject | taxonomie chyb | en |
| dc.subject | promptové inženýrství | en |
| dc.subject | Large language models | cs |
| dc.subject | conversation analysis | cs |
| dc.subject | user--agent communication | cs |
| dc.subject | natural language processing | cs |
| dc.subject | data annotation | cs |
| dc.subject | verification frameworks | cs |
| dc.subject | LLM as a judge | cs |
| dc.subject | error taxonomy | cs |
| dc.subject | prompt engineering | cs |
| dc.title | Large language models for analyzing user-agent conversations | en |
| dc.title.alternative | Large language models for analyzing user-agent conversations | cs |
| dc.type | Text | cs |
| dc.type.driver | bachelorThesis | en |
| dc.type.evskp | bakalářská práce | cs |
| dcterms.dateAccepted | 2025-06-18 | cs |
| dcterms.modified | 2025-06-18-15:38:20 | cs |
| eprints.affiliatedInstitution.faculty | Fakulta informačních technologií | cs |
| sync.item.dbid | 164213 | en |
| sync.item.dbtype | ZP | en |
| sync.item.insts | 2025.08.26 23:57:42 | en |
| sync.item.modts | 2025.08.26 19:58:53 | en |
| thesis.discipline | Informační technologie | cs |
| thesis.grantor | Vysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédií | cs |
| thesis.level | Bakalářský | cs |
| thesis.name | Bc. | cs |
