Large language models for analyzing user-agent conversations
Loading...
Date
Authors
Yeroma, Vladyslav
Advisor
Referee
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
ORCID
Abstract
Používání velkých jazykových modelů (LLM) pro analýzu konverzace se výrazně rozšířilo v různých odvětvích. Jejich spolehlivost však zůstává sporná kvůli přítomnosti halucinací, chybných interpretací nebo vymyšlených odpovědí. Tento článek zkoumá GPT-4o pro automatickou analýzu reálných konverzací v oblasti péče o zákazníky mezi uživateli a agenty. Konkrétně hodnotíme GPT-4o pro zodpovídání otázek na základě konverzací mezi uživatelem a agentem a následnou pravdivost vygenerovaných odpovědí pomocí GPT-4o jako posuzovatele. Výsledky obou kroků porovnáváme s lidskými anotačními posudky. Uvádíme kategorie halucinací a analýzu chybných úsudků LLM. Naše zjištění poukazují na klíčové oblasti, ve kterých LLM selhávají, a zdůrazňují potřebu zdokonalených verifikačních rámců pro zvýšení jejich spolehlivosti v reálných aplikacích.
The use of large language models (LLMs) for conversation analysis has gained significant traction in various industries. However, their reliability remains questionable due to the presence of hallucinations, misinterpretations, or fabricated responses. This paper explores GPT-4o for the automatic analysis of real-world customer care conversations between users and agents. We specifically evaluate GPT-4o for question answering based on user--agent conversations and the subsequent veracity of the generated answers using GPT-4o as a judge. The results of both steps are compared against human annotation judgments. We introduce hallucination categories and the analysis of LLM misjudgments. Our findings highlight key areas where LLMs fail, emphasising the need for improved verification frameworks to enhance their reliability in real-world applications.
The use of large language models (LLMs) for conversation analysis has gained significant traction in various industries. However, their reliability remains questionable due to the presence of hallucinations, misinterpretations, or fabricated responses. This paper explores GPT-4o for the automatic analysis of real-world customer care conversations between users and agents. We specifically evaluate GPT-4o for question answering based on user--agent conversations and the subsequent veracity of the generated answers using GPT-4o as a judge. The results of both steps are compared against human annotation judgments. We introduce hallucination categories and the analysis of LLM misjudgments. Our findings highlight key areas where LLMs fail, emphasising the need for improved verification frameworks to enhance their reliability in real-world applications.
Description
Keywords
Velké jazykové modely , analýza konverzací , uživatelsko--agentní komunikace , zpracování přirozeného jazyka , anotace dat , verifikační rámce , LLM jako posuzovatel , taxonomie chyb , promptové inženýrství , Large language models , conversation analysis , user--agent communication , natural language processing , data annotation , verification frameworks , LLM as a judge , error taxonomy , prompt engineering
Citation
YEROMA, V. Large language models for analyzing user-agent conversations [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
prof. Ing. Adam Herout, Ph.D. (předseda)
Dr. Ing. Petr Peringer (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Jaroslav Rozman, Ph.D. (člen)
Ing. Jiří Matoušek, Ph.D. (člen)
Date of acceptance
2025-06-18
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
Result of defence
práce byla úspěšně obhájena
