손실에서 검증으로: 에이전트를 위한 출처 인지 계층적 메모리
From Lossy to Verified: A Provenance-Aware Tiered Memory for Agents
장기적 에이전트들은 종종 상호작용 기록을 기록 시점의 요약본으로 압축한다. 이는 근본적인 '질의 전 기록(write-before-query)' 장벽을 생성한다. 즉, 시스템이 미래의 질의가 무엇을 핵심으로 삼을지 알기 전에 압축 결정이 내려진다. 그 결과 요약본은 검증 불가능한 누락을 유발할 수 있으며, 결정적 제약 조건(예: 알레르기)이 배제되어 에이전트가 추적 가능한 증거로 답변을 정당화하지 못하게 만들 수 있다. 원시 로그를 유지하면 권위 있는 진실 공급원을 복구할 수 있지만, 기본적으로 원시 로그를 기반으로(grounding) 하는 것은 비용이 많이 든다. 많은 질의는 요약본만으로도 답변할 수 있음에도 불구하고, 원시 로그를 기반으로 하면 여전히 훨씬 더 긴 문맥을 처리해야 하므로 토큰 소비와 지연 시간을 증가시킨다. 우리는 검색을 추론 시간의 증거 할당 문제로 정의하는 출처 연결 프레임워크인 TierMem을 제안한다. TierMem은 2계층 메모리 구조를 사용하여 최소한의 비용으로 충분한 증거를 통해 답변한다. 기본적으로 빠른 요약 인덱스에 질의하며, 런타임 충분성 라우터가 요약 증거가 불충분할 때만 불변의 원시 로그 저장소로 탐색을 격상(escalate)시킨다. 이후 TierMem은 검증된 결과물을 원시 출처와 연결된 새로운 요약 단위로 다시 기록한다. LoCoMo 벤치마크에서 TierMem은 입력 토큰을 54.1%, 지연 시간을 60.7% 감소시키면서도 0.851의 정확도(원시 로그 전용 사용 시 0.873)를 달성했다.
Long-horizon agents often compress interaction histories into write-time summaries. This creates a fundamental write-before-query barrier: compression decisions are made before the system knows what a future query will hinge on. As a result, summaries can cause unverifiable omissions -- decisive constraints (e.g., allergies) may be dropped, leaving the agent unable to justify an answer with traceable evidence. Retaining raw logs restores an authoritative source of truth, but grounding on raw logs by default is expensive: many queries are answerable from summaries, yet raw grounding still requires processing far longer contexts, inflating token consumption and latency. We propose TierMem, a provenance-linked framework that casts retrieval as an inference-time evidence allocation problem. TierMem uses a two-tier memory hierarchy to answer with the cheapest sufficient evidence: it queries a fast summary index by default, and a runtime sufficiency router Escalates to an immutable raw-log store only when summary evidence is insufficient. TierMem then writes back verified findings as new summary units linked to their raw sources. On LoCoMo, TierMem achieves 0.851 accuracy (vs.0.873 raw-only) while reducing input tokens by 54.1\% and latency by 60.7%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.