SAGE: 서비스 에이전트 그래프 기반 평가 벤치마크
SAGE: A Service Agent Graph-guided Evaluation Benchmark
대규모 언어 모델(LLM)의 발전은 고객 서비스 자동화를 촉진했지만, 이러한 모델의 성능을 평가하는 것은 여전히 어려운 과제입니다. 기존 벤치마크는 주로 정적인 방식과 단일 차원 지표에 의존하여, 실제 환경에서 요구되는 다양한 사용자 행동이나 체계적인 표준 운영 절차(SOP) 준수 여부를 제대로 반영하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 다중 에이전트 기반의 범용 평가 벤치마크인 SAGE(Service Agent Graph-guided Evaluation)를 제안합니다. SAGE는 비정형 SOP를 동적 대화 그래프로 변환하여, 논리적 준수 여부를 정확하게 검증하고 포괄적인 경로를 커버할 수 있도록 설계되었습니다. 또한, 우리는 적대적 의도 분류 체계와 모듈식 확장 메커니즘을 도입하여, 다양한 분야에 저렴한 비용으로 적용 가능하도록 하고 자동화된 대화 데이터 생성 기능을 제공합니다. 평가 과정은 심판 에이전트와 규칙 엔진이 사용자-서비스 에이전트 간의 상호 작용을 분석하여 결정적인 정답을 생성하는 프레임워크를 통해 이루어집니다. 6개의 산업 시나리오에서 27개의 LLM에 대한 광범위한 실험 결과, 모델들이 의도를 정확하게 분류하지만 올바른 후속 조치를 수행하지 못하는 '실행 격차(Execution Gap)'가 상당하게 존재한다는 것을 확인했습니다. 또한, 높은 적대적 강도 하에서 모델들이 논리적 오류에도 불구하고 예의 바른 대화 방식을 유지하는 '공감 회복력(Empathy Resilience)' 현상을 관찰했습니다. 코드 및 관련 자료는 https://anonymous.4open.science/r/SAGE-Bench-4CD3/ 에서 확인할 수 있습니다.
The development of Large Language Models (LLMs) has catalyzed automation in customer service, yet benchmarking their performance remains challenging. Existing benchmarks predominantly rely on static paradigms and single-dimensional metrics, failing to account for diverse user behaviors or the strict adherence to structured Standard Operating Procedures (SOPs) required in real-world deployments. To bridge this gap, we propose SAGE (Service Agent Graph-guided Evaluation), a universal multi-agent benchmark for automated, dual-axis assessment. SAGE formalizes unstructured SOPs into Dynamic Dialogue Graphs, enabling precise verification of logical compliance and comprehensive path coverage. We introduce an Adversarial Intent Taxonomy and a modular Extension Mechanism, enabling low-cost deployment across domains and facilitating automated dialogue data synthesis. Evaluation is conducted via a framework where Judge Agents and a Rule Engine analyze interactions between User and Service Agents to generate deterministic ground truth. Extensive experiments on 27 LLMs across 6 industrial scenarios reveal a significant ``Execution Gap'' where models accurately classify intents but fail to derive correct subsequent actions. We also observe ``Empathy Resilience'', a phenomenon where models maintain polite conversational facades despite underlying logical failures under high adversarial intensity. Code and resources are available at https://anonymous.4open.science/r/SAGE-Bench-4CD3/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.