2602.22697v1 Feb 26, 2026 cs.CL

실제 서비스 에이전트 강화: 작업 지향 대화에서 유용성과 비용의 균형

Reinforcing Real-world Service Agents: Balancing Utility and Cost in Task-oriented Dialogue

Ninghang Gao
Ninghang Gao
Citations: 1
h-index: 1
Yuqing Dai
Yuqing Dai
Citations: 1
h-index: 1
Lin Shi
Lin Shi
Citations: 4
h-index: 1
Ziyi Wang
Ziyi Wang
Citations: 5
h-index: 1
Yujie Wang
Yujie Wang
Citations: 1
h-index: 1
Jinpeng Wang
Jinpeng Wang
Citations: 12
h-index: 1
Chaozheng Wang
Chaozheng Wang
Citations: 949
h-index: 19
Wei Zhang
Wei Zhang
Citations: 1
h-index: 1
Wei He
Wei He
Citations: 93
h-index: 7

대규모 언어 모델(LLM)의 빠른 발전은 대화형 챗봇에서 일반적인 에이전트로의 전환을 가속화했습니다. 그러나 공감적인 소통과 예산 제약적인 의사 결정을 효과적으로 균형시키는 것은 여전히 해결해야 할 과제입니다. 기존 방법은 이러한 복잡한 전략적 균형을 제대로 반영하지 못하기 때문에, 우리는 작업 지향 대화를 다단계 강화 학습 프로세스로 재구성하는 프레임워크인 InteractCS-RL을 제안합니다. 구체적으로, 우리는 먼저 사용자 중심 상호 작용 프레임워크를 구축하여 고정밀 학습 환경을 제공하고, 이를 통해 에이전트가 다양한 전략을 동적으로 탐색할 수 있도록 합니다. 또한, 생성 프로세스 크레딧을 통합하고 PID-라그랑주 비용 제어기를 사용하여 정책을 효율적으로 안내하는 비용 인식 다중 턴 정책 최적화(CMPO) 방법을 도입했습니다. CMPO는 사용자 보상과 전역 비용 제약 사이의 파레토 경계를 탐색하도록 정책을 안내합니다. 맞춤형 실제 비즈니스 시나리오에서의 광범위한 실험 결과, InteractCS-RL은 세 가지 평가 지표에서 다른 기본 모델보다 훨씬 우수한 성능을 보였습니다. 또한, 도구-에이전트-사용자 상호 작용 벤치마크에 대한 추가적인 평가는 InteractCS-RL의 다양한 도메인에서의 견고성을 확인했습니다.

Original Abstract

The rapid evolution of Large Language Models (LLMs) has accelerated the transition from conversational chatbots to general agents. However, effectively balancing empathetic communication with budget-aware decision-making remains an open challenge. Since existing methods fail to capture these complex strategic trade-offs, we propose InteractCS-RL, a framework that reframes task-oriented dialogue as a multi-granularity reinforcement learning process. Specifically, we first establish a User-centric Interaction Framework to provide a high-fidelity training gym, enabling agents to dynamically explore diverse strategies with persona-driven users. Then, we introduce Cost-aware Multi-turn Policy Optimization (CMPO) with a hybrid advantage estimation strategy. By integrating generative process credits and employing a PID-Lagrangian cost controller, CMPO effectively guides the policy to explore Pareto boundary between user reward and global cost constraints. Extensive experiments on customized real business scenarios demonstrate that InteractCS-RL significantly outperform other baselines across three evaluation dimensions. Further evaluation on tool-agent-user interaction benchmarks verify InteractCS-RL robustness across diverse domains.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!