MemPO: 장기 계획 에이전트를 위한 자기 기억 기반 정책 최적화
MemPO: Self-Memory Policy Optimization for Long-Horizon Agents
장기 계획 에이전트는 환경과의 상호작용 과정에서 문맥 크기가 증가하는 문제를 겪으며, 이는 성능과 안정성을 저하시킵니다. 기존 방법들은 주로 외부 메모리 모듈을 도입하고 저장된 메모리에서 관련 정보를 검색하지만, 이는 모델 자체가 능동적으로 메모리 내용을 관리하고 에이전트의 전체적인 목표와 일치하도록 하는 것을 방해합니다. 이러한 제한 사항을 해결하기 위해, 우리는 에이전트(정책 모델)가 환경과의 상호작용 중에 스스로 메모리를 요약하고 관리할 수 있도록 하는 자기 기억 기반 정책 최적화 알고리즘(MemPO)을 제안합니다. 메모리 효율성을 기반으로 한 신뢰 할당 메커니즘을 개선함으로써, 정책 모델은 중요한 정보를 선택적으로 유지하여 토큰 사용량을 크게 줄이면서도 작업 성능을 유지할 수 있습니다. 광범위한 실험과 분석 결과, MemPO는 기본 모델 대비 절대 F1 점수에서 25.98% 향상, 이전 최고 성능 모델 대비 7.1% 향상을 달성했으며, 동시에 토큰 사용량을 각각 67.58%와 73.12% 감소시켰습니다.
Long-horizon agents face the challenge of growing context size during interaction with environment, which degrades the performance and stability. Existing methods typically introduce the external memory module and look up the relevant information from the stored memory, which prevents the model itself from proactively managing its memory content and aligning with the agent's overarching task objectives. To address these limitations, we propose the self-memory policy optimization algorithm (MemPO), which enables the agent (policy model) to autonomously summarize and manage their memory during interaction with environment. By improving the credit assignment mechanism based on memory effectiveness, the policy model can selectively retain crucial information, significantly reducing token consumption while preserving task performance. Extensive experiments and analyses confirm that MemPO achieves absolute F1 score gains of 25.98% over the base model and 7.1% over the previous SOTA baseline, while reducing token usage by 67.58% and 73.12%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.