2602.07624v1 Feb 07, 2026 cs.AI

M2A: 장기적인 개인화 상호작용을 위한 이중 계층 하이브리드 메모리 기반 멀티모달 메모리 에이전트

M2A: Multimodal Memory Agent with Dual-Layer Hybrid Memory for Long-Term Personalized Interactions

Junyu Feng
Junyu Feng
Citations: 0
h-index: 0
Binxiao Xu
Binxiao Xu
Citations: 0
h-index: 0
Jiayi Chen
Jiayi Chen
Citations: 37
h-index: 3
M. Dai
M. Dai
Citations: 56
h-index: 3
Cenyang Wu
Cenyang Wu
Citations: 1
h-index: 1
Haodong Li
Haodong Li
Citations: 0
h-index: 0
Bohan Zeng
Bohan Zeng
Citations: 129
h-index: 7
Yu Xie
Yu Xie
Citations: 20
h-index: 3
Ming Lu
Ming Lu
Citations: 2
h-index: 1
Wentao Zhang
Wentao Zhang
Citations: 78
h-index: 2
Hao Liang
Hao Liang
Citations: 554
h-index: 10

본 연구는 장기적인 인간-기계 상호작용에서 발생하는 개인화된 질의응답의 난제를 다룹니다. 대화 이력이 수 주나 수개월에 걸쳐 지속되어 컨텍스트 윈도우(context window)를 초과할 때, 기존의 개인화 메커니즘은 사용자의 점진적인 개념, 별칭, 선호도를 지속적으로 습득하고 활용하는 데 어려움이 있습니다. 현재의 개인화된 멀티모달 모델은 대부분 정적이어서, 초기화 시점에 개념이 고정되고 상호작용 과정에서 발전하지 못합니다. 이에 우리는 온라인 업데이트를 통해 개인화된 멀티모달 정보를 유지하는 에이전트 기반의 이중 계층 하이브리드 메모리 시스템인 M2A를 제안합니다. 이 시스템은 두 가지 협력 에이전트를 활용합니다. ChatAgent는 사용자 상호작용을 관리하고 메모리의 조회 및 업데이트 시점을 자율적으로 결정하며, MemoryManager는 ChatAgent의 메모리 요청을 이중 계층 메모리 뱅크에 대한 세부 작업으로 세분화합니다. 이 메모리 뱅크는 RawMessageStore(불변 대화 로그)와 SemanticMemoryStore(고수준 관찰 정보)를 결합하여 서로 다른 입도(granularity)의 기억을 제공합니다. 또한, 시간적 일관성을 유지하면서 Yo'LLaVA와 MC-LLaVA의 개념 기반 세션을 LoCoMo 장기 대화 데이터에 주입하는 재사용 가능한 데이터 합성 파이프라인을 개발했습니다. 실험 결과, M2A는 베이스라인 성능을 크게 상회하였으며, 개인화를 단순한 일회성 설정에서 공진화(co-evolving) 메모리 메커니즘으로 전환하는 것이 장기 멀티모달 상호작용에서 고품질의 개인화된 응답을 제공하는 실질적인 방안임을 입증했습니다. 코드는 https://github.com/Little-Fridge/M2A 에서 확인할 수 있습니다.

Original Abstract

This work addresses the challenge of personalized question answering in long-term human-machine interactions: when conversational history spans weeks or months and exceeds the context window, existing personalization mechanisms struggle to continuously absorb and leverage users' incremental concepts, aliases, and preferences. Current personalized multimodal models are predominantly static-concepts are fixed at initialization and cannot evolve during interactions. We propose M2A, an agentic dual-layer hybrid memory system that maintains personalized multimodal information through online updates. The system employs two collaborative agents: ChatAgent manages user interactions and autonomously decides when to query or update memory, while MemoryManager breaks down memory requests from ChatAgent into detailed operations on the dual-layer memory bank, which couples a RawMessageStore (immutable conversation log) with a SemanticMemoryStore (high-level observations), providing memories at different granularities. In addition, we develop a reusable data synthesis pipeline that injects concept-grounded sessions from Yo'LLaVA and MC-LLaVA into LoCoMo long conversations while preserving temporal coherence. Experiments show that M2A significantly outperforms baselines, demonstrating that transforming personalization from one-shot configuration to a co-evolving memory mechanism provides a viable path for high-quality individualized responses in long-term multimodal interactions. The code is available at https://github.com/Little-Fridge/M2A.

0 Citations
0 Influential
30.493061443341 Altmetric
152.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!