AMA-Bench: 에이전트 애플리케이션을 위한 장기 기억 능력 평가
AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
대규모 언어 모델(LLM)은 점점 더 복잡한 애플리케이션에서 자율 에이전트로 활용되고 있으며, 우수한 성능을 달성하기 위해서는 장기 기억 능력이 매우 중요합니다. 그러나 실제 애플리케이션과 에이전트 기억 능력을 평가하는 현재 표준 간에는 상당한 격차가 존재합니다. 기존 벤치마크는 주로 대화 중심의 인간-에이전트 상호 작용에 초점을 맞추고 있습니다. 실제 에이전트의 기억은 주로 기계 생성 표현으로 구성된, 에이전트와 환경 간의 지속적인 상호 작용 흐름입니다. 이러한 격차를 해소하기 위해, 우리는 실제 에이전트 애플리케이션에서 LLM의 장기 기억 능력을 평가하는 AMA-Bench (Agent Memory with Any length)를 소개합니다. AMA-Bench는 두 가지 핵심 구성 요소로 이루어져 있습니다: (1) 대표적인 에이전트 애플리케이션 전반에 걸친 실제 에이전트의 행동 경로 데이터셋과, 전문가가 선별한 질의응답 데이터셋, 그리고 (2) 임의의 길이까지 확장 가능한 합성 에이전트 행동 경로 데이터셋과, 규칙 기반 질의응답 데이터셋. 종합적인 연구 결과, 기존의 기억 시스템은 AMA-Bench에서 성능이 저조한 경향을 보였는데, 이는 인과 관계 및 객관적인 정보 부족, 그리고 많은 기억 시스템에서 사용되는 유사성 기반 검색의 정보 손실 특성 때문입니다. 이러한 한계를 극복하기 위해, 우리는 인과 그래프와 도구 기반 검색 기능을 갖춘 효과적인 기억 시스템인 AMA-Agent를 제안합니다. 실험 결과, AMA-Agent는 AMA-Bench에서 평균 57.22%의 정확도를 달성하여, 가장 강력한 기존 기억 시스템의 성능을 11.16% 이상 능가하는 것을 확인했습니다.
Large Language Models (LLMs) are deployed as autonomous agents in increasingly complex applications, where enabling long-horizon memory is critical for achieving strong performance. However, a significant gap exists between practical applications and current evaluation standards for agent memory: existing benchmarks primarily focus on dialogue-centric, human-agent interactions. In reality, agent memory consists of a continuous stream of agent-environment interactions that are primarily composed of machine-generated representations. To bridge this gap, we introduce AMA-Bench (Agent Memory with Any length), which evaluates long-horizon memory for LLMs in real agentic applications. It features two key components: (1) a set of real-world agentic trajectories across representative agentic applications, paired with expert-curated QA, and (2) a set of synthetic agentic trajectories that scale to arbitrary horizons, paired with rule-based QA. Our comprehensive study shows that existing memory systems underperform on AMA-Bench primarily because they lack causality and objective information and are constrained by the lossy nature of similarity-based retrieval employed by many memory systems. To address these limitations, we propose AMA-Agent, an effective memory system featuring a causality graph and tool-augmented retrieval. Our results demonstrate that AMA-Agent achieves 57.22% average accuracy on AMA-Bench, surpassing the strongest memory system baselines by 11.16%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.