반성적 경험을 통한 내재적 자율성 함양
Internalizing Agency from Reflective Experience
최근 대규모 언어 모델은 풍부한 피드백을 제공하는 환경과의 장기적인 상호작용을 통해 계획하고, 행동하며, 실수를 극복해야 하는 자율적인 에이전트로 점점 더 많이 활용되고 있습니다. 그러나, 기존의 결과 지향적인 후처리 방법(예: 검증 가능한 보상을 사용하는 강화 학습)은 주로 최종 성공 신호를 최적화하며, 풍부한 환경 피드백을 충분히 활용하지 못합니다. 그 결과, 이러한 방법들은 종종 정책의 분포를 좁게 만들고, 이미 성공적인 행동을 반복하는 데 더 능숙해지는 반면, 문제 해결 능력을 확장하는 데 필요한 피드백 기반의 자율성을 향상시키는 데는 실패합니다(예: Pass@k). 이에 대한 해결책으로, 우리는 반성적 경험으로부터 피드백 기반의 자율성을 내재화하는 프레임워크인 LEAFE(Learning Feedback-Grounded Agency from Reflective Experience)를 제안합니다. 구체적으로, LEAFE는 탐색 과정에서 에이전트가 환경 피드백을 활용 가능한 경험으로 요약하고, 이전의 의사 결정 지점으로 돌아가, 수정된 행동으로 대체 경로를 탐색합니다. 그런 다음, 이러한 경험 기반의 수정을 지도 학습을 통해 모델에 통합하여, 정책이 향후 상호 작용에서 더욱 효과적으로 회복할 수 있도록 합니다. 우리는 다양한 상호 작용 코딩 및 에이전트 관련 작업을 수행하면서, 고정된 상호 작용 예산 하에서 LEAFE가 기준 모델보다 Pass@1 성능을 꾸준히 향상시키고, 결과 지향적인 기준 모델(GRPO) 및 Early Experience와 같은 경험 기반 방법보다 높은 Pass@k 성능을 달성했습니다. 특히 Pass@128에서 최대 14%의 성능 향상을 보였습니다.
Large language models are increasingly deployed as autonomous agents that must plan, act, and recover from mistakes through long-horizon interaction with environments that provide rich feedback. However, prevailing outcome-driven post-training methods (e.g., RL with verifiable rewards) primarily optimize final success signals, leaving rich environment feedback underutilized. Consequently, they often lead to distribution sharpening: the policy becomes better at reproducing a narrow set of already-successful behaviors, while failing to improve the feedback-grounded agency needed to expand problem-solving capacity (e.g., Pass@k) in long-horizon settings. To address this, we propose LEAFE (Learning Feedback-Grounded Agency from Reflective Experience), a framework that internalizes recovery agency from reflective experience. Specifically, during exploration, the agent summarizes environment feedback into actionable experience, backtracks to earlier decision points, and explores alternative branches with revised actions. We then distill these experience-guided corrections into the model through supervised fine-tuning, enabling the policy to recover more effectively in future interactions. Across a diverse set of interactive coding and agentic tasks under fixed interaction budgets, LEAFE consistently improves Pass@1 over the base model and achieves higher Pass@k than outcome-driven baselines (GRPO) and experience-based methods such as Early Experience, with gains of up to 14% on Pass@128.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.