2603.00680v1 Feb 28, 2026 cs.AI

MemPO: 장기 계획 에이전트를 위한 자기 기억 기반 정책 최적화

MemPO: Self-Memory Policy Optimization for Long-Horizon Agents

Xiang Li
Xiang Li
Citations: 0
h-index: 0
Ruoran Li
Ruoran Li
Citations: 82
h-index: 3
Xinghua Zhang
Xinghua Zhang
Citations: 307
h-index: 7
Haiyang Yu
Haiyang Yu
Citations: 544
h-index: 11
Shitong Duan
Shitong Duan
Citations: 101
h-index: 6
Chonghua Liao
Chonghua Liao
Citations: 17
h-index: 2
Xudong Guo
Xudong Guo
Citations: 206
h-index: 9
Jin-Li Suo
Jin-Li Suo
Citations: 870
h-index: 12
Yongbin Li
Yongbin Li
Citations: 2,377
h-index: 19
Wen Xiang
Wen Xiang
Citations: 17
h-index: 3

장기 계획 에이전트는 환경과의 상호작용 과정에서 문맥 크기가 증가하는 문제를 겪으며, 이는 성능과 안정성을 저하시킵니다. 기존 방법들은 주로 외부 메모리 모듈을 도입하고 저장된 메모리에서 관련 정보를 검색하지만, 이는 모델 자체가 능동적으로 메모리 내용을 관리하고 에이전트의 전체적인 목표와 일치하도록 하는 것을 방해합니다. 이러한 제한 사항을 해결하기 위해, 우리는 에이전트(정책 모델)가 환경과의 상호작용 중에 스스로 메모리를 요약하고 관리할 수 있도록 하는 자기 기억 기반 정책 최적화 알고리즘(MemPO)을 제안합니다. 메모리 효율성을 기반으로 한 신뢰 할당 메커니즘을 개선함으로써, 정책 모델은 중요한 정보를 선택적으로 유지하여 토큰 사용량을 크게 줄이면서도 작업 성능을 유지할 수 있습니다. 광범위한 실험과 분석 결과, MemPO는 기본 모델 대비 절대 F1 점수에서 25.98% 향상, 이전 최고 성능 모델 대비 7.1% 향상을 달성했으며, 동시에 토큰 사용량을 각각 67.58%와 73.12% 감소시켰습니다.

Original Abstract

Long-horizon agents face the challenge of growing context size during interaction with environment, which degrades the performance and stability. Existing methods typically introduce the external memory module and look up the relevant information from the stored memory, which prevents the model itself from proactively managing its memory content and aligning with the agent's overarching task objectives. To address these limitations, we propose the self-memory policy optimization algorithm (MemPO), which enables the agent (policy model) to autonomously summarize and manage their memory during interaction with environment. By improving the credit assignment mechanism based on memory effectiveness, the policy model can selectively retain crucial information, significantly reducing token consumption while preserving task performance. Extensive experiments and analyses confirm that MemPO achieves absolute F1 score gains of 25.98% over the base model and 7.1% over the previous SOTA baseline, while reducing token usage by 67.58% and 73.12%.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!