2602.09138v1 Feb 09, 2026 cs.AI

PABU: 진행 상황 인지적 믿음 업데이트를 통한 효율적인 LLM 에이전트

PABU: Progress-Aware Belief Update for Efficient LLM Agents

Haitao Jiang
Haitao Jiang
Citations: 25
h-index: 2
Lin Ge
Lin Ge
Citations: 9
h-index: 2
Hengrui Cai
Hengrui Cai
Citations: 264
h-index: 8
Rui Song
Rui Song
Citations: 12
h-index: 2

대규모 언어 모델(LLM) 에이전트는 일반적으로 전체 행동-관찰 기록에 기반하여 행동을 결정하는데, 이는 작업과 관련 없는 정보를 포함하여 불필요한 행동과 높은 추론 비용을 초래할 수 있습니다. 본 논문에서는 에이전트의 상태를 간결하게 표현하고, 작업 진행 상황을 명시적으로 모델링하며, 과거 행동과 관찰 내용을 선택적으로 유지하는 상태 표현 프레임워크인 진행 상황 인지적 믿음 업데이트(PABU)를 제안합니다. 각 단계에서 에이전트는 이전 라운드 이후의 상대적인 진행 상황을 예측하고, 새로 발견된 상호 작용을 저장할지 여부를 결정하며, 이후의 의사 결정은 유지된 부분집합에만 기반합니다. AgentGym 벤치마크의 8개 환경에서 동일한 학습 경로를 사용하여 PABU는 81.0%의 작업 완료율을 달성했으며, 이는 전체 기록 기반의 기존 최고 성능 모델보다 23.9% 향상된 수치입니다. 또한, PABU의 진행 상황 중심적인 행동 선택은 효율성을 향상시켜 평균 상호 작용 단계를 9.5로 줄여, 26.9% 감소 효과를 보였습니다. 추가적인 분석 결과, 명시적인 진행 상황 예측과 선택적인 유지 기능은 견고한 믿음 학습과 성능 향상을 위해 모두 필수적임이 확인되었습니다.

Original Abstract

Large Language Model (LLM) agents commonly condition actions on full action-observation histories, which introduce task-irrelevant information that easily leads to redundant actions and higher inference cost. We propose Progress-Aware Belief Update (PABU), a belief-state framework that compactly represents an agent's state by explicitly modeling task progress and selectively retaining past actions and observations. At each step, the agent predicts its relative progress since the previous round and decides whether the newly encountered interaction should be stored, conditioning future decisions only on the retained subset. Across eight environments in the AgentGym benchmark, and using identical training trajectories, PABU achieves an 81.0% task completion rate, outperforming previous State of the art (SoTA) models with full-history belief by 23.9%. Additionally, PABU's progress-oriented action selection improves efficiency, reducing the average number of interaction steps to 9.5, corresponding to a 26.9% reduction. Ablation studies show that both explicit progress prediction and selective retention are necessary for robust belief learning and performance gains.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!