Mem-Gallery: 멀티모달 대규모 언어 모델(MLLM) 에이전트를 위한 장기 대화형 메모리 벤치마킹
Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents
장기 메모리는 특히 정보가 축적되고 변화하는 대화 환경에서, 멀티모달 대규모 언어 모델(MLLM) 에이전트의 핵심적인 기능입니다. 그러나 기존 벤치마크는 텍스트 기반 대화에서의 멀티 세션 메모리를 평가하거나, 제한된 맥락 내에서의 멀티모달 이해를 평가하는 데 그쳐, 멀티모달 메모리가 장기적인 대화 흐름 속에서 어떻게 유지, 구성, 발전되는지를 평가하지 못합니다. 이에 우리는 MLLM 에이전트의 멀티모달 장기 대화형 메모리를 평가하기 위한 새로운 벤치마크인 Mem-Gallery를 소개합니다. Mem-Gallery는 시각 및 텍스트 정보를 기반으로 한 고품질의 멀티 세션 대화, 긴 상호 작용 범위, 그리고 풍부한 멀티모달 의존성을 특징으로 합니다. 이 데이터셋을 기반으로, 우리는 메모리 추출 및 테스트 시간 적응, 메모리 추론, 그리고 메모리 지식 관리라는 세 가지 기능적 차원을 따라 핵심 메모리 능력을 평가하는 체계적인 평가 프레임워크를 제안합니다. 13개의 메모리 시스템에 대한 광범위한 벤치마킹을 통해, 명시적인 멀티모달 정보 유지 및 메모리 구성의 필요성, 메모리 추론 및 지식 관리의 지속적인 한계, 그리고 현재 모델의 효율성 병목 현상 등 중요한 결과를 밝혀냈습니다.
Long-term memory is a critical capability for multimodal large language model (MLLM) agents, particularly in conversational settings where information accumulates and evolves over time. However, existing benchmarks either evaluate multi-session memory in text-only conversations or assess multimodal understanding within localized contexts, failing to evaluate how multimodal memory is preserved, organized, and evolved across long-term conversational trajectories. Thus, we introduce Mem-Gallery, a new benchmark for evaluating multimodal long-term conversational memory in MLLM agents. Mem-Gallery features high-quality multi-session conversations grounded in both visual and textual information, with long interaction horizons and rich multimodal dependencies. Building on this dataset, we propose a systematic evaluation framework that assesses key memory capabilities along three functional dimensions: memory extraction and test-time adaptation, memory reasoning, and memory knowledge management. Extensive benchmarking across thirteen memory systems reveals several key findings, highlighting the necessity of explicit multimodal information retention and memory organization, the persistent limitations in memory reasoning and knowledge management, as well as the efficiency bottleneck of current models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.