StraTA: 전략적 경로 추상을 통한 자율 강화 학습의 효율성 증진
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
대규모 언어 모델(LLM)은 점점 더 많은 분야에서 상호작용 에이전트로 활용되고 있지만, 장기적인 의사 결정을 최적화하는 것은 여전히 어려운 과제입니다. 현재의 방법들은 대부분 순수하게 반응적인 방식으로 작동하여, 장기적인 경로에 대한 탐색과 보상 할당을 약화시키기 때문입니다. 본 연구에서는 전략적 경로 추상(Strategic Trajectory Abstraction, StraTA)이라는 간단한 프레임워크를 제시합니다. StraTA는 초기 작업 상태에서 간결한 전략을 샘플링하고, 이후의 행동을 해당 전략에 기반하여 결정하며, 계층적 GRPO 스타일의 롤아웃 방식을 통해 전략 생성과 행동 실행을 동시에 학습합니다. 또한, 다양한 전략 롤아웃과 중요한 자기 평가 기능을 추가하여 성능을 향상시켰습니다. ALFWorld, WebShop, 그리고 SciWorld에서의 실험 결과, StraTA는 강력한 기준 모델들을 능가하며 샘플 효율성과 최종 성능을 꾸준히 향상시키는 것을 보여주었습니다. StraTA는 ALFWorld에서 93.1%의 성공률, WebShop에서 84.2%의 성공률을 달성했습니다. SciWorld에서는 63.5%의 전체 점수를 기록하여, 최첨단 비공개 모델보다 우수한 성능을 보였습니다.
Large language models (LLMs) are increasingly used as interactive agents, but optimizing them for long-horizon decision making remains difficult because current methods are largely purely reactive, which weakens both exploration and credit assignment over extended trajectories. In this work, we present Strategic Trajectory Abstraction (StraTA), a simple framework that introduces an explicit trajectory-level strategy into agentic reinforcement learning (RL). StraTA samples a compact strategy from the initial task state, conditions subsequent actions on that strategy, and trains strategy generation and action execution jointly with a hierarchical GRPO-style rollout design, further enhanced by diverse strategy rollout and critical self-judgment. Experiments on ALFWorld, WebShop, and SciWorld show that StraTA consistently improves both sample efficiency and final performance over strong baselines. StraTA reaches success rates of 93.1% on ALFWorld and 84.2% on WebShop. On SciWorld, StraTA attains a 63.5% overall score, outperforming frontier closed-source models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.