장기 상호작용을 위한 내재적 신용 할당
Intrinsic Credit Assignment for Long Horizon Interaction
에이전트가 장기에 걸쳐 발생하는 불확실성을 탐색할 수 있도록 어떻게 훈련시킬 수 있을까? 본 연구에서는 언어 모델 고유의 내재적 신념을 활용하여 중간 진행 과정에 보상을 제공하는 ΔBelief-RL을 제안한다. 우리의 방법론은 신용 할당을 위해 에이전트가 목표 솔루션에 부여하는 확률의 변화를 활용한다. 합성 상호작용 데이터를 통해 훈련함으로써, ΔBelief-RL은 강화학습에서 순전히 결과에만 기반한 보상을 일관되게 뛰어넘는 정보 탐색 능력을 학습하며, 이러한 성능 향상은 고객 서비스부터 개인화에 이르는 분포 외(out-of-distribution) 애플리케이션에까지 일반화된다. 특히, 훈련 시야(horizon)를 넘어 테스트 단계의 상호작용을 확장함에 따라 성능이 계속 향상되며, Pass@k 지표에서도 상호작용 효율성이 증가한다는 점이 주목할 만하다. 전반적으로 본 연구는 내재적인 ΔBelief 보상을 통해 중간 행동에 대한 신용 할당을 가능하게 함으로써, 장기적인 불확실성을 탐색하기 위한 확장 가능한 훈련 전략을 제시한다.
How can we train agents to navigate uncertainty over long horizons? In this work, we propose ΔBelief-RL, which leverages a language model's own intrinsic beliefs to reward intermediate progress. Our method utilizes the change in the probability an agent assigns to the target solution for credit assignment. By training on synthetic interaction data, ΔBelief-RL teaches information-seeking capabilities that consistently outperform purely outcome-based rewards for Reinforcement Learning, with improvements generalizing to out-of-distribution applications ranging from customer service to personalization. Notably, the performance continues to improve as we scale test-time interactions beyond the training horizon, with interaction-efficiency increasing even on Pass@k metrics. Overall, our work introduces a scalable training strategy for navigating uncertainty over a long-horizon, by enabling credit assignment to intermediate actions via intrinsic ΔBelief rewards.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.