2602.05327v1 Feb 05, 2026 cs.AI

ProAct: 상호작용 환경에서의 에이전트 룩어헤드

ProAct: Agentic Lookahead in Interactive Environments

Yangbin Yu
Yangbin Yu
Citations: 161
h-index: 3
Mingyu Yang
Mingyu Yang
Citations: 28
h-index: 2
Junyou Li
Junyou Li
Citations: 166
h-index: 4
Yijun Yang
Yijun Yang
Citations: 25
h-index: 4
Zichuan Lin
Zichuan Lin
Citations: 605
h-index: 12
Jiafei Lyu
Jiafei Lyu
Citations: 891
h-index: 14
Yicheng Liu
Yicheng Liu
Citations: 20
h-index: 2
Deheng Ye
Deheng Ye
Citations: 7
h-index: 2
Yiming Gao
Yiming Gao
Citations: 4
h-index: 1
Feiyu Liu
Feiyu Liu
Citations: 29
h-index: 3
Zhicong Lu
Zhicong Lu
Citations: 66
h-index: 3
Jie Jiang
Jie Jiang
Citations: 16
h-index: 1

기존의 거대 언어 모델(LLM) 에이전트들은 미래 상태를 시뮬레이션할 때 발생하는 오류 누적으로 인해, 장기적인 계획이 필요한 상호작용 환경에서 어려움을 겪고 있습니다. 이를 해결하기 위해, 우리는 2단계 훈련 패러다임을 통해 에이전트가 정확한 룩어헤드(전방 예측) 추론을 내면화할 수 있도록 하는 프레임워크인 ProAct를 제안합니다. 첫째, 환경 기반 탐색에서 도출된 궤적을 바탕으로 에이전트가 지도 미세 조정을 수행하는 GLAD(Grounded LookAhead Distillation)를 도입합니다. 복잡한 탐색 트리를 간결하고 인과적인 추론 사슬로 압축함으로써, 에이전트는 추론 시 탐색에 따른 계산 오버헤드 없이 미래를 예측하는 논리를 학습합니다. 둘째, 결정의 정확도를 더욱 높이기 위해 PPO 및 GRPO와 같은 정책 그래디언트 알고리즘을 향상시키도록 설계된 플러그 앤 플레이 방식의 보조 가치 추정기인 MC-Critic(Monte-Carlo Critic)을 제안합니다. 가치 추정치를 보정하기 위해 경량 환경 롤아웃을 활용함으로써, MC-Critic은 값비싼 모델 기반 가치 근사에 의존하지 않고도 안정적인 정책 최적화를 촉진하는 저분산 신호를 제공합니다. 확률적 환경(예: 2048)과 결정론적 환경(예: 소코반) 모두에 대한 실험에서 ProAct는 계획 정확도를 크게 향상시키는 것으로 나타났습니다. 특히, ProAct로 훈련된 40억(4B) 파라미터 모델은 모든 오픈 소스 베이스라인을 능가하고 최신 비공개 소스 모델과 대등한 성능을 보였으며, 본 적 없는 환경에서도 강력한 일반화 성능을 입증했습니다. 코드와 모델은 https://github.com/GreatX3/ProAct 에서 확인할 수 있습니다.

Original Abstract

Existing Large Language Model (LLM) agents struggle in interactive environments requiring long-horizon planning, primarily due to compounding errors when simulating future states. To address this, we propose ProAct, a framework that enables agents to internalize accurate lookahead reasoning through a two-stage training paradigm. First, we introduce Grounded LookAhead Distillation (GLAD), where the agent undergoes supervised fine-tuning on trajectories derived from environment-based search. By compressing complex search trees into concise, causal reasoning chains, the agent learns the logic of foresight without the computational overhead of inference-time search. Second, to further refine decision accuracy, we propose the Monte-Carlo Critic (MC-Critic), a plug-and-play auxiliary value estimator designed to enhance policy-gradient algorithms like PPO and GRPO. By leveraging lightweight environment rollouts to calibrate value estimates, MC-Critic provides a low-variance signal that facilitates stable policy optimization without relying on expensive model-based value approximation. Experiments on both stochastic (e.g., 2048) and deterministic (e.g., Sokoban) environments demonstrate that ProAct significantly improves planning accuracy. Notably, a 4B parameter model trained with ProAct outperforms all open-source baselines and rivals state-of-the-art closed-source models, while demonstrating robust generalization to unseen environments. The codes and models are available at https://github.com/GreatX3/ProAct

1 Citations
0 Influential
27 Altmetric
136.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!