에이전트 게임 및 적응형 트리 기반 그룹 상대 정책 최적화(AT-GRPO)를 통한 대화 모델 최적화
Dialogue Model Optimization via Agent Game and Adaptive Tree-based GRPO
개방형 대화 에이전트는 사용자의 특성에 맞춰 개인화된 상호작용을 제공하는 것을 목표로 하지만, 기존 방법은 다음과 같은 중요한 한계점을 가지고 있습니다: 수집된 사용자 데이터에 대한 과도한 의존성, 그리고 강화 학습(RL)에서 발생하는 단기 편향으로 인해 장기적인 대화 가치를 간과하는 현상입니다. 이러한 문제점을 해결하기 위해, 우리는 온라인 개인화를 통합하는 새로운 장기 강화 학습 프레임워크인 적응형 트리 기반 그룹 상대 정책 최적화(AT-GRPO)를 제안합니다. 본 연구에서는 두 개의 에이전트 게임 패러다임을 채택하여, 사용자 에이전트가 스타일 모방(사용자별 대화 특징 학습)과 능동적 종료(턴 레벨에서의 종료 확률을 즉각적인 보상으로 예측)를 통해 동적인 환경을 구축하고, 이를 통해 대화 에이전트가 관심 영역 탐색을 심화하도록 유도하는 반복적인 사이클을 형성합니다. AT-GRPO는 대화 경로를 트리로 재해석하고, 적응형 관측 범위를 도입합니다. 전체 트리를 확장하는 방식은 지수적인 오버헤드를 발생시키므로, 우리는 각 노드에서 스테이지에 따른 적절한 범위 내의 보상을 집계하도록 제한합니다. 즉, 더 넓은 범위는 초기 단계의 주제 탐색을 지원하고, 더 좁은 범위는 후기 단계의 대화 유지를 용이하게 합니다. 이러한 설계는 롤아웃 예산을 대화 길이에 대한 지수 함수에서 다항 함수로 줄이면서도, 장기적인 보상을 효과적으로 확보할 수 있도록 합니다. 광범위한 실험 결과는 본 프레임워크가 우수한 성능, 샘플 효율성 및 안정성을 제공함을 보여줍니다.
Open-ended dialogue agents aim to deliver engaging, personalized interactions by adapting to users' traits, but existing methods face critical limitations: over-reliance on pre-collected user data, and short-horizon biases in reinforcement learning (RL) that neglect long-term dialogue value. To address these, we propose a novel long-horizon RL framework integrating online personalization with Adaptive Tree-based Group Relative Policy Optimization (AT-GRPO). Adopting a two-agent game paradigm, a user agent constructs dynamic environments via style mimicry (learning user-specific conversational traits) and active termination (predicting turn-level termination probabilities as immediate rewards), forming an iterative cycle that drives the dialogue agent to deepen interest exploration. AT-GRPO reinterprets dialogue trajectories as trees and introduces adaptive observation ranges. Unlike full tree expansion that incurs exponential overhead, it limits each node to aggregate rewards from a stage-aware range: larger ranges support early-stage topic exploration, while smaller ranges facilitate late-stage dialogue maintenance. This design reduces rollout budgets from exponential to polynomial in the dialogue length, while preserving long-term reward capture. Extensive experiments show our framework's superior performance, sample efficiency, and robustness.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.