실제 서비스 에이전트 강화: 작업 지향 대화에서 유용성과 비용의 균형
Reinforcing Real-world Service Agents: Balancing Utility and Cost in Task-oriented Dialogue
대규모 언어 모델(LLM)의 빠른 발전은 대화형 챗봇에서 일반적인 에이전트로의 전환을 가속화했습니다. 그러나 공감적인 소통과 예산 제약적인 의사 결정을 효과적으로 균형시키는 것은 여전히 해결해야 할 과제입니다. 기존 방법은 이러한 복잡한 전략적 균형을 제대로 반영하지 못하기 때문에, 우리는 작업 지향 대화를 다단계 강화 학습 프로세스로 재구성하는 프레임워크인 InteractCS-RL을 제안합니다. 구체적으로, 우리는 먼저 사용자 중심 상호 작용 프레임워크를 구축하여 고정밀 학습 환경을 제공하고, 이를 통해 에이전트가 다양한 전략을 동적으로 탐색할 수 있도록 합니다. 또한, 생성 프로세스 크레딧을 통합하고 PID-라그랑주 비용 제어기를 사용하여 정책을 효율적으로 안내하는 비용 인식 다중 턴 정책 최적화(CMPO) 방법을 도입했습니다. CMPO는 사용자 보상과 전역 비용 제약 사이의 파레토 경계를 탐색하도록 정책을 안내합니다. 맞춤형 실제 비즈니스 시나리오에서의 광범위한 실험 결과, InteractCS-RL은 세 가지 평가 지표에서 다른 기본 모델보다 훨씬 우수한 성능을 보였습니다. 또한, 도구-에이전트-사용자 상호 작용 벤치마크에 대한 추가적인 평가는 InteractCS-RL의 다양한 도메인에서의 견고성을 확인했습니다.
The rapid evolution of Large Language Models (LLMs) has accelerated the transition from conversational chatbots to general agents. However, effectively balancing empathetic communication with budget-aware decision-making remains an open challenge. Since existing methods fail to capture these complex strategic trade-offs, we propose InteractCS-RL, a framework that reframes task-oriented dialogue as a multi-granularity reinforcement learning process. Specifically, we first establish a User-centric Interaction Framework to provide a high-fidelity training gym, enabling agents to dynamically explore diverse strategies with persona-driven users. Then, we introduce Cost-aware Multi-turn Policy Optimization (CMPO) with a hybrid advantage estimation strategy. By integrating generative process credits and employing a PID-Lagrangian cost controller, CMPO effectively guides the policy to explore Pareto boundary between user reward and global cost constraints. Extensive experiments on customized real business scenarios demonstrate that InteractCS-RL significantly outperform other baselines across three evaluation dimensions. Further evaluation on tool-agent-user interaction benchmarks verify InteractCS-RL robustness across diverse domains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.