2601.11969v2 Jan 17, 2026 cs.CL

MemoryRewardBench: 대규모 언어 모델의 장기 메모리 관리를 위한 보상 모델 벤치마킹

MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models

Zecheng Tang
Zecheng Tang
Soochow University
Citations: 1,028
h-index: 9
Baibei Ji
Baibei Ji
Citations: 19
h-index: 3
Ruoxi Sun
Ruoxi Sun
Citations: 4
h-index: 1
Haitian Wang
Haitian Wang
Citations: 8
h-index: 2
Wangjie You
Wangjie You
Citations: 36
h-index: 4
Zhang Yijun
Zhang Yijun
Citations: 8
h-index: 2
Wenpeng Zhu
Wenpeng Zhu
Citations: 10
h-index: 2
Ji Qi
Ji Qi
Citations: 67
h-index: 3
Juntao Li
Juntao Li
Citations: 382
h-index: 11
Min Zhang
Min Zhang
Citations: 179
h-index: 9

기존 연구에서는 점점 더 많은 양의 텍스트를 처리하기 위해 분할 방식으로 메모리 중심 메커니즘을 채택하고 있으며, 효과적인 메모리 관리는 대규모 언어 모델이 전체 시퀀스에 걸쳐 정보를 효율적으로 전달하는 데 중요한 역할을 합니다. 따라서, 보상 모델(RMs)을 활용하여 메모리 품질을 자동으로 그리고 신뢰성 있게 평가하는 것은 매우 중요합니다. 본 연구에서는 장기 메모리 관리 프로세스의 평가 능력을 체계적으로 연구하는 최초의 벤치마크인 MemoryRewardBench를 소개합니다. MemoryRewardBench는 8K에서 128K 토큰까지 다양한 컨텍스트 길이를 갖는 10가지의 서로 다른 메모리 관리 패턴을 특징으로 하는, 장기 컨텍스트 이해 및 장문 생성 작업을 모두 포함합니다. 13개의 최첨단 RMs에 대한 평가 결과, 오픈 소스 모델과 독점 모델 간의 성능 격차가 줄어들고 있으며, 파라미터 수에 관계없이 최신 모델이 이전 모델보다 꾸준히 우수한 성능을 보이는 것을 확인했습니다. 또한, 다양한 환경에서 LLM의 메모리 관리를 평가하는 데 있어 현재 RMs의 기능과 기본적인 한계를 분석했습니다.

Original Abstract

Existing works increasingly adopt memory-centric mechanisms to process long contexts in a segment manner, and effective memory management is one of the key capabilities that enables large language models to effectively propagate information across the entire sequence. Therefore, leveraging reward models (RMs) to automatically and reliably evaluate memory quality is critical. In this work, we introduce MemoryRewardBench, the first benchmark to systematically study the ability of RMs to evaluate long-term memory management processes. MemoryRewardBench covers both long-context comprehension and long-form generation tasks, featuring 10 distinct settings with different memory management patterns, with context length ranging from 8K to 128K tokens. Evaluations on 13 cutting-edge RMs indicate a diminishing performance gap between open-source and proprietary models, with newer-generation models consistently outperforming their predecessors regardless of parameter count. We further expose the capabilities and fundamental limitations of current RMs in evaluating LLM memory management across diverse settings.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!