2602.06025v1 Feb 05, 2026 cs.CL

쿼리 인식 예산 계층 라우팅을 통한 런타임 에이전트 메모리 학습

Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

Quanyu Long
Quanyu Long
Citations: 225
h-index: 9
Haozhen Zhang
Haozhen Zhang
Citations: 110
h-index: 4
Haodong Yue
Haodong Yue
Citations: 12
h-index: 1
Tao Feng
Tao Feng
Citations: 0
h-index: 0
Jianzhu Bao
Jianzhu Bao
Citations: 0
h-index: 0
Bowen Jin
Bowen Jin
Citations: 38
h-index: 3
Weizhi Zhang
Weizhi Zhang
Citations: 0
h-index: 0
Xiao Li
Xiao Li
Citations: 345
h-index: 4
Jiaxuan You
Jiaxuan You
Citations: 273
h-index: 8
Chengwei Qin
Chengwei Qin
Citations: 58
h-index: 3
Wenya Wang
Wenya Wang
Citations: 0
h-index: 0

메모리는 단일 컨텍스트 윈도우를 넘어 작동하는 대규모 언어 모델(LLM) 에이전트에게 점점 더 중요한 역할을 하지만, 대부분의 기존 시스템은 효율성이 떨어지고 쿼리에 중요한 정보를 삭제할 수 있는 오프라인, 쿼리 불감증 메모리 구축에 의존합니다. 런타임 메모리 활용은 자연스러운 대안이지만, 기존 연구에서는 상당한 오버헤드가 발생하고 성능-비용 균형에 대한 명시적인 제어가 제한적인 경우가 많습니다. 본 연구에서는 명시적인 쿼리 인식 성능-비용 제어를 위한 런타임 에이전트 메모리 프레임워크인 extbf{BudgetMem}을 제시합니다. BudgetMem은 메모리 처리를 세 가지 예산 계층(즉, extsc{Low}/ extsc{Mid}/ extsc{High})으로 제공되는 메모리 모듈 집합으로 구성합니다. 경량 라우터는 작업 성능과 메모리 구축 비용을 균형 있게 조절하기 위해 모듈 간에 예산 계층 라우팅을 수행하며, 이는 강화 학습으로 훈련된 소형 신경망 정책으로 구현됩니다. 통일된 테스트베드인 BudgetMem을 사용하여 예산 계층을 구현하기 위한 세 가지 상호 보완적인 전략을 연구합니다. 이는 구현(메서드 복잡성), 추론(추론 동작), 그리고 용량(모듈 모델 크기)을 포함합니다. LoCoMo, LongMemEval, 그리고 HotpotQA 데이터셋에서, BudgetMem은 성능을 우선시하는 경우(즉, 고예산 설정) 강력한 기존 모델을 능가하며, 더 엄격한 예산 하에서는 더 나은 정확도-비용 균형을 제공합니다. 또한, 우리의 분석은 다양한 계층화 전략의 장단점을 명확히 하여, 다양한 예산 환경에서 각 요소가 가장 유리한 균형을 제공하는 시점을 밝힙니다.

Original Abstract

Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rely on offline, query-agnostic memory construction that can be inefficient and may discard query-critical information. Although runtime memory utilization is a natural alternative, prior work often incurs substantial overhead and offers limited explicit control over the performance-cost trade-off. In this work, we present \textbf{BudgetMem}, a runtime agent memory framework for explicit, query-aware performance-cost control. BudgetMem structures memory processing as a set of memory modules, each offered in three budget tiers (i.e., \textsc{Low}/\textsc{Mid}/\textsc{High}). A lightweight router performs budget-tier routing across modules to balance task performance and memory construction cost, which is implemented as a compact neural policy trained with reinforcement learning. Using BudgetMem as a unified testbed, we study three complementary strategies for realizing budget tiers: implementation (method complexity), reasoning (inference behavior), and capacity (module model size). Across LoCoMo, LongMemEval, and HotpotQA, BudgetMem surpasses strong baselines when performance is prioritized (i.e., high-budget setting), and delivers better accuracy-cost frontiers under tighter budgets. Moreover, our analysis disentangles the strengths and weaknesses of different tiering strategies, clarifying when each axis delivers the most favorable trade-offs under varying budget regimes.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!