2601.03515v1 Jan 07, 2026 cs.CL

Mem-Gallery: 멀티모달 대규모 언어 모델(MLLM) 에이전트를 위한 장기 대화형 메모리 벤치마킹

Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents

Zhining Liu
Zhining Liu
Citations: 260
h-index: 10
Xuying Ning
Xuying Ning
Citations: 159
h-index: 7
Xiao Lin
Xiao Lin
University of Illinois Urbana-Champaign
Citations: 182
h-index: 8
Hanghang Tong
Hanghang Tong
Citations: 153
h-index: 6
Tianxin Wei
Tianxin Wei
Citations: 245
h-index: 10
Yuanchen Bei
Yuanchen Bei
Citations: 35
h-index: 2
Yanjun Zhao
Yanjun Zhao
Citations: 202
h-index: 5
Yada Zhu
Yada Zhu
Citations: 107
h-index: 7
Hendrik Hamann
Hendrik Hamann
Citations: 76
h-index: 5
Jingrui He
Jingrui He
Citations: 206
h-index: 8

장기 메모리는 특히 정보가 축적되고 변화하는 대화 환경에서, 멀티모달 대규모 언어 모델(MLLM) 에이전트의 핵심적인 기능입니다. 그러나 기존 벤치마크는 텍스트 기반 대화에서의 멀티 세션 메모리를 평가하거나, 제한된 맥락 내에서의 멀티모달 이해를 평가하는 데 그쳐, 멀티모달 메모리가 장기적인 대화 흐름 속에서 어떻게 유지, 구성, 발전되는지를 평가하지 못합니다. 이에 우리는 MLLM 에이전트의 멀티모달 장기 대화형 메모리를 평가하기 위한 새로운 벤치마크인 Mem-Gallery를 소개합니다. Mem-Gallery는 시각 및 텍스트 정보를 기반으로 한 고품질의 멀티 세션 대화, 긴 상호 작용 범위, 그리고 풍부한 멀티모달 의존성을 특징으로 합니다. 이 데이터셋을 기반으로, 우리는 메모리 추출 및 테스트 시간 적응, 메모리 추론, 그리고 메모리 지식 관리라는 세 가지 기능적 차원을 따라 핵심 메모리 능력을 평가하는 체계적인 평가 프레임워크를 제안합니다. 13개의 메모리 시스템에 대한 광범위한 벤치마킹을 통해, 명시적인 멀티모달 정보 유지 및 메모리 구성의 필요성, 메모리 추론 및 지식 관리의 지속적인 한계, 그리고 현재 모델의 효율성 병목 현상 등 중요한 결과를 밝혀냈습니다.

Original Abstract

Long-term memory is a critical capability for multimodal large language model (MLLM) agents, particularly in conversational settings where information accumulates and evolves over time. However, existing benchmarks either evaluate multi-session memory in text-only conversations or assess multimodal understanding within localized contexts, failing to evaluate how multimodal memory is preserved, organized, and evolved across long-term conversational trajectories. Thus, we introduce Mem-Gallery, a new benchmark for evaluating multimodal long-term conversational memory in MLLM agents. Mem-Gallery features high-quality multi-session conversations grounded in both visual and textual information, with long interaction horizons and rich multimodal dependencies. Building on this dataset, we propose a systematic evaluation framework that assesses key memory capabilities along three functional dimensions: memory extraction and test-time adaptation, memory reasoning, and memory knowledge management. Extensive benchmarking across thirteen memory systems reveals several key findings, highlighting the necessity of explicit multimodal information retention and memory organization, the persistent limitations in memory reasoning and knowledge management, as well as the efficiency bottleneck of current models.

4 Citations
0 Influential
5 Altmetric
29.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!