2605.07313v1 May 08, 2026 cs.AI

저장된 증거가 더 이상 사용 불가능하게 되는 시점: 에이전트 메모리의 규모 의존적 평가

When Stored Evidence Stops Being Usable: Scale-Conditioned Evaluation of Agent Memory

Jiaqi Shao
Jiaqi Shao
Citations: 89
h-index: 4
Yiyi Lu
Yiyi Lu
Citations: 16
h-index: 2
Yunzhe Zhang
Yunzhe Zhang
Citations: 41
h-index: 2
Bing Luo
Bing Luo
Citations: 83
h-index: 4

기존 에이전트 메모리 평가는 고정된 스냅샷의 정확도 또는 검색 품질을 보고하지만, 이러한 점수는 관련 없는 세션(쿼리에 대해 작업 관련 증거로 주석이 달리지 않은 세션)이 축적됨에 따라 증거가 얼마나 오랫동안 유용하게 유지되는지를 나타내지 않습니다. 본 연구에서는 증거 보존 성장이라는 조건 하에 에이전트 메모리에 대한 규모 의존적 평가 프로토콜을 제시합니다. 이 프로토콜은 각 쿼리에 대해 작업 관련 증거를 고정하고 관련 없는 세션을 추가합니다. 프로토콜은 에이전트 메모리 변화 과정을 기록하고 다음 네 가지 지표를 보고합니다. 예산 준수 신뢰성, 메모리 호출 부담, 실패 원인 분석, 그리고 신뢰성이 목표 이하로 떨어지는 사용 가능한 규모의 경계. LongMemEval과 LoCoMo를 사용하여 평탄, 평면 및 계층적 메모리 인터페이스에서 프로토콜을 적용한 결과, 신뢰성 저하는 단일 현상이 아님이 확인되었습니다. LongMemEval에서 HippoRAG는 두 번의 호출 예산 내에서 작동하지만, 관련 없는 세션이 추가됨에 따라 예산 준수 신뢰성이 16~20% 포인트 감소합니다. LiCoMemory의 관찰된 실패는 에이전트에 따라 크게 다르며, Qwen3-8B는 예산을 초과하는 반면, Qwen3-32B와 Qwen3-235B는 테스트된 범위 내에서 신뢰성을 유지합니다. 이러한 결과는 에이전트, 인터페이스, 규모 범위 및 상호 작용 예산에 따라 확장 가능한 메모리 주장을 조건부로 설정할 수 있는 프레임워크를 뒷받침합니다.

Original Abstract

Memory-agent evaluations report fixed-snapshot accuracy or retrieval quality, but these scores do not show whether evidence remains usable as irrelevant sessions (sessions not annotated as task-relevant evidence for the query) accumulate. We present a scale-conditioned evaluation protocol for agent memory under evidence-preserving growth: for each query, task evidence is held fixed while irrelevant sessions are added. The protocol logs agent--memory trajectories and reports four diagnostics: budget-compliant reliability, tail memory-call burden, failure-regime decomposition, and the usable-scale boundary where reliability falls below the target. Applied to LongMemEval and LoCoMo across flat, planar, and hierarchical memory interfaces, the protocol shows reliability loss is not a single phenomenon. On LongMemEval, HippoRAG stays within the two-call budget but loses 16--20 percentage points in budget-compliant reliability as irrelevant sessions are added; LiCoMemory's observed failures depend strongly on the agent, with Qwen3-8B exceeding the budget while Qwen3-32B and Qwen3-235B remain reliable in the tested range. The result supports a framework for making scalable-memory claims conditional on agent, interface, scale range, and interaction budget.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!