Large language models for analyzing user-agent conversations

Loading...
Thumbnail Image

Date

Authors

Yeroma, Vladyslav

Mark

C

Journal Title

Journal ISSN

Volume Title

Publisher

Vysoké učení technické v Brně. Fakulta informačních technologií

ORCID

Abstract

Používání velkých jazykových modelů (LLM) pro analýzu konverzace se výrazně rozšířilo v různých odvětvích. Jejich spolehlivost však zůstává sporná kvůli přítomnosti halucinací, chybných interpretací nebo vymyšlených odpovědí. Tento článek zkoumá GPT-4o pro automatickou analýzu reálných konverzací v oblasti péče o zákazníky mezi uživateli a agenty. Konkrétně hodnotíme GPT-4o pro zodpovídání otázek na základě konverzací mezi uživatelem a agentem a následnou pravdivost vygenerovaných odpovědí pomocí GPT-4o jako posuzovatele. Výsledky obou kroků porovnáváme s lidskými anotačními posudky. Uvádíme kategorie halucinací a analýzu chybných úsudků LLM. Naše zjištění poukazují na klíčové oblasti, ve kterých LLM selhávají, a zdůrazňují potřebu zdokonalených verifikačních rámců pro zvýšení jejich spolehlivosti v reálných aplikacích.
The use of large language models (LLMs) for conversation analysis has gained significant traction in various industries. However, their reliability remains questionable due to the presence of hallucinations, misinterpretations, or fabricated responses. This paper explores GPT-4o for the automatic analysis of real-world customer care conversations between users and agents. We specifically evaluate GPT-4o for question answering based on user--agent conversations and the subsequent veracity of the generated answers using GPT-4o as a judge. The results of both steps are compared against human annotation judgments. We introduce hallucination categories and the analysis of LLM misjudgments. Our findings highlight key areas where LLMs fail, emphasising the need for improved verification frameworks to enhance their reliability in real-world applications.

Description

Citation

YEROMA, V. Large language models for analyzing user-agent conversations [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.

Document type

Document version

Date of access to the full text

Language of document

en

Study field

Informační technologie

Comittee

prof. Ing. Adam Herout, Ph.D. (předseda) Dr. Ing. Petr Peringer (člen) Ing. Matěj Grégr, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. Jiří Matoušek, Ph.D. (člen)

Date of acceptance

2025-06-18

Defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Result of defence

práce byla úspěšně obhájena

DOI

Collections

Endorsement

Review

Supplemented By

Referenced By

Citace PRO