에이전트 메모리 내부에서 무슨 일이 일어나는가? 등장부터 진단까지의 회로 분석
What Happens Inside Agent Memory? Circuit Analysis from Emergence to Diagnosis
에이전트 메모리 오류는 눈에 띄지 않게 발생합니다. LLM 기반 에이전트는 필요한 정보를 추출, 유지 또는 검색하는 데 실패하더라도 유창한 응답을 생성할 수 있습니다. 쓰기-관리-읽기 루프는 이러한 시스템의 외부 파이프라인을 설명하지만, 각 단계가 어떤 내부 연산을 수행하는지는 명확하지 않습니다. Qwen-3 패밀리(0.6B~14B)와 두 가지 메모리 프레임워크(mem0 및 A-MEM)의 내부 특징 회로를 추적한 결과, 세 가지 주요 결과를 보고합니다. 첫째, 콘텐츠 회로가 활성화되기 전에 제어 회로가 감지됩니다. 라우팅 회로는 0.6B에서 인과적으로 활성화되는 반면, 콘텐츠 회로는 4B에 이르기까지 감지 가능한 신호를 생성하지 않으며, 이로 인해 작은 모델은 겉보기에는 능숙하게 라우팅하지만, 정보 추출 및 연관성 설정에서 조용히 실패합니다. 둘째, 콘텐츠 그룹 내에서 쓰기 및 읽기 회로는 베이스 모델에 이미 존재하는 컨텍스트-기준 접지 기반 역할을 하는 후반 레이어 허브를 공유합니다. 메모리 프레임워크는 이 기반 위에 기능적 접지 방향을 추가하며, 이 허브는 두 프레임워크 모두에서 공유됩니다. 셋째, 등장은 제어 가능성을 의미하지 않습니다. 콘텐츠 회로는 4B에서 감지되지만, 안정적으로 제어 가능해지는 것은 8B에서입니다. 이는 감지 및 개입에 서로 다른 규모의 임계값이 있음을 시사합니다. 실질적인 의미에서, 두 회로 그룹 간의 특징 공간 분리는 지도 없이 76.2%의 정확도로 각 연산에 대한 오류 위치를 파악할 수 있게 하며, 이는 일반적으로 눈에 띄지 않는 에이전트 메모리 오류에 대한 단계별 진단을 제공합니다.
Agent memory failures are silent: an LLM-based agent can produce a fluent response even when it fails to extract, retain, or retrieve the information needed across sessions. The write-manage-read loop describes the external pipeline of these systems but leaves open which internal computations implement each stage. Tracing internal feature circuits across the Qwen-3 family (0.6B--14B) and two memory frameworks (mem0 and A-MEM), we report three findings. First, control is detectable before content: routing circuitry is causally active at 0.6B, while content circuitry produces no detectable signal until 4B under our tracing setup, creating a deployment regime where small models route with apparent competence but silently fail at extraction and grounding. Second, within the content group, Write and Read share a late-layer hub that operates as a context-grounding substrate already present in the base model; only memory framing recruits a functional grounding direction on this substrate, and the hub transfers across both frameworks. Third, emergence does not imply steerability: although the content circuit becomes detectable at 4B, it becomes reliably steerable only at 8B, indicating that detection and intervention have distinct scale thresholds. As a practical implication, the feature-space separation between the two circuit groups enables per-operation failure localization at 76.2% accuracy without supervision, providing a stage-level diagnostic for otherwise silent agent-memory failures.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.