MAPO: 장기 다중 턴 대화에 대한 혼합형 이점 정책 최적화
MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue
감정 지원과 같은 주관적인 다중 턴 대화 작업은 진화하는 사용자 상태에 적응하고 장기적인 상호 작용 품질을 최적화하는 대화 정책을 요구합니다. 그러나 신뢰할 수 있는 과정 감독의 부재로 인해 이러한 환경에서의 강화 학습(RL)은 여전히 어려운 과제입니다. 결과 기반 학습은 모든 턴에 걸친 보상 할당을 단일 트래젝토리 수준의 보상으로 축소시키고, 단순한 턴 단위 그룹 샘플링은 인터랙티브 환경에서 엄청난 시뮬레이션 비용을 발생시킵니다. 우리는 판별 모델로부터 밀집된 과정 피드백을 활용하고 몬테카를로 반환을 통해 장기적인 효과를 전파하는, 판별기(critic)가 필요 없는 효율적인 RL 알고리즘인 MAPO를 제안합니다. 최적화의 안정성을 높이기 위해, 우리는 턴 단위 정규화와 배치 단위 정규화를 결합한 혼합형 이점 추정기를 도입하여, 세밀하면서도 확장 가능한 보상 할당을 가능하게 합니다. EMPA, EmoBench 및 EQ-Bench를 포함한 여러 주관적인 대화 벤치마크와 7B에서 32B까지의 다양한 모델 크기에 대해, 우리의 방법은 결과 기반 GRPO 및 단일 수준 정규화 기준보다 훈련 안정성과 최종 성능 모두에서 일관되게 향상된 결과를 보입니다. EMPA 데이터셋에서 최대 9포인트의 성능 향상과 7B 기본 모델에서 최대 +43.2의 대화 점수 증가를 달성했습니다. EMPA 스타일의 환경에서만 훈련되었음에도 불구하고, 우리의 접근 방식은 일반화 능력이 뛰어나, EMPA 데이터셋 이외의 새로운 감성 지능 벤치마크에서도 일관되게 성능 향상을 보이며, EmoBench에서 최대 +4포인트, EQ-Bench에서 +3.5포인트의 향상을 달성했습니다. 이러한 결과는 밀집된 과정 감독과 혼합 수준 정규화를 결합하면 주관적이고 개방적인 다중 턴 대화에 대한 효과적이고 확장 가능한 RL을 가능하게 한다는 것을 보여줍니다.
Subjective multi-turn dialogue tasks, such as emotional support, require conversational policies that adapt to evolving user states and optimize long-horizon interaction quality. However, reinforcement learning (RL) for such settings remains challenging due to the absence of reliable process supervision. Outcome-only training collapses credit assignment across turns into a single trajectory-level reward, while naïve turn-level group sampling incurs prohibitive rollout costs in interactive environments. We propose a critic-free and efficient RL algorithm named MAPO that leverages dense process feedback from a judge model and propagates long-horizon effects through Monte Carlo returns. To stabilize optimization, we introduce a mixed advantage estimator that combines turn-level normalization with batch-level normalization, enabling fine-grained yet scalable credit assignment. Across multiple subjective dialogue benchmarks, including EMPA, EmoBench, and EQ-Bench, and model scales ranging from 7B to 32B, our method consistently improves both training stability and final performance over outcome-only GRPO and single-level normalization baselines. On EMPA, we improve rates by up to 9 points and increase dialogue scores by as much as +43.2 over the 7B base model. Despite training only on EMPA-style environments, our approach generalizes well, yielding consistent improvements on unseen emotional-intelligence benchmarks, including up to +4 points on EmoBench and +3.5 on EQ-Bench. Together, these results demonstrate that dense process supervision combined with mixed-level normalization enables effective and scalable RL for subjective, open-ended multi-turn dialogue.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.