HISR: 후회 정보 기반 모듈화된 세그먼트 프로세스 보상을 이용한 다중 단계 에이전트 강화 학습
HISR: Hindsight Information Modulated Segmental Process Rewards For Multi-turn Agentic Reinforcement Learning
대규모 언어 모델은 다양한 분야에서 뛰어난 성능을 보이지만, 복잡하고 장기적인 에이전트 의사 결정 작업에서의 성능은 여전히 제한적입니다. 대부분의 기존 방법은 다중 단계 강화 학습을 통해 성능을 향상시키기 위해 효과적인 보상 모델(RM)을 설계하는 데 집중합니다. 그러나 이러한 방법들은 희소한 결과 보상에서의 지연된 전파와 잠재적으로 지나치게 세분화되고 집중되지 않은 단계별 프로세스 보상으로 인한 신뢰할 수 없는 보상 할당 문제를 겪습니다. 본 논문에서는 후회 정보를 활용하여 세그먼트 프로세스 보상을 조절하는 (HISR) 방법을 제안합니다. 이는 보상을 하위 목표와 밀접하게 연관시키고 중요한 세그먼트를 강조하여 보상 할당의 신뢰성을 향상시킵니다. 구체적으로, 각 작업의 하위 목표에 대한 보상을 할당하는 세그먼트 수준의 프로세스 RM을 제시하여, 단계별로 과도하게 세분화된 보상을 피합니다. 또한, 경로의 중요한 세그먼트를 강조하기 위해, 특정 행동을 수행한 후 경로 결과를 알게 되었을 때의 선호도를 반영하는 후회 모델을 설계했습니다. 이 특징을 활용하여, 후회 모델과 정책 모델 간의 시퀀스 확률 비율을 사용하여 행동의 중요도를 측정합니다. 이러한 비율은 세그먼트 중요도 점수를 집계하는 데 사용되며, 이는 다시 세그먼트 프로세스 보상을 조절하여 보상 할당의 신뢰성을 향상시킵니다. 세 개의 공개 벤치마크에 대한 광범위한 실험 결과는 제안된 방법의 유효성을 입증합니다.
While large language models excel in diverse domains, their performance on complex longhorizon agentic decision-making tasks remains limited. Most existing methods concentrate on designing effective reward models (RMs) to advance performance via multi-turn reinforcement learning. However, they suffer from delayed propagation in sparse outcome rewards and unreliable credit assignment with potentially overly fine-grained and unfocused turnlevel process rewards. In this paper, we propose (HISR) exploiting Hindsight Information to modulate Segmental process Rewards, which closely aligns rewards with sub-goals and underscores significant segments to enhance the reliability of credit assignment. Specifically, a segment-level process RM is presented to assign rewards for each sub-goal in the task, avoiding excessively granular allocation to turns. To emphasize significant segments in the trajectory, a hindsight model is devised to reflect the preference of performing a certain action after knowing the trajectory outcome. With this characteristic, we design the ratios of sequence likelihoods between hindsight and policy model to measure action importance. The ratios are subsequently employed to aggregate segment importance scores, which in turn modulate segmental process rewards, enhancing credit assignment reliability. Extensive experimental results on three publicly benchmarks demonstrate the validity of our method.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.