AMemGym: 장기 대화에서 어시스턴트를 위한 대화형 메모리 벤치마킹
AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations
사용자와 LLM 기반 어시스턴트 간의 장기 상호작용은 효과적인 메모리 관리를 필요로 하지만, 현재의 접근 방식은 메모리 훈련 및 평가 측면에서 어려움을 겪고 있습니다. 기존의 메모리 벤치마크는 정적이고 오프라인 데이터를 컨텍스트로 사용하여 평가의 신뢰성과 확장성을 제한합니다. 이러한 문제를 해결하기 위해, 우리는 메모리 기반 개인화를 위한 온라인 평가 및 최적화를 가능하게 하는 대화형 환경인 AMemGym을 소개합니다. AMemGym은 구조화된 데이터 샘플링을 사용하여 사용자 프로필, 상태 의존적인 질문 및 상태 진화 경로를 미리 정의하여, 고품질의 평가에 적합한 상호작용을 비용 효율적으로 생성합니다. LLM 시뮬레이션 사용자는 역할극을 통해 잠재적인 상태를 드러내면서도 구조화된 상태 일관성을 유지합니다. 구조화된 데이터 기반의 포괄적인 지표는 어시스턴트의 평가 및 최적화를 지원합니다. 광범위한 실험 결과, 기존 메모리 시스템(예: RAG, 긴 컨텍스트 LLM, 에이전트 메모리)의 성능 격차와 그 이유를 밝혀냈습니다. AMemGym은 경쟁적인 접근 방식 간의 효과적인 선택을 가능하게 할 뿐만 아니라, 메모리 관리 전략의 자체적인 발전을 촉진할 잠재력도 가지고 있습니다. 우리의 프레임워크는 구조화된 상태 진화와 자유로운 상호작용을 연결하여, 대화형 에이전트의 메모리 기능을 향상시키기 위한 확장 가능하고 진단적으로 풍부한 환경을 제공합니다.
Long-horizon interactions between users and LLM-based assistants necessitate effective memory management, yet current approaches face challenges in training and evaluation of memory. Existing memory benchmarks rely on static, off-policy data as context, limiting evaluation reliability and scalability. To address these gaps, we introduce AMemGym, an interactive environment enabling on-policy evaluation and optimization for memory-driven personalization. AMemGym employs structured data sampling to predefine user profiles, state-dependent questions, and state evolution trajectories, enabling cost-effective generation of high-quality, evaluation-aligned interactions. LLM-simulated users expose latent states through role-play while maintaining structured state consistency. Comprehensive metrics based on structured data guide both assessment and optimization of assistants. Extensive experiments reveal performance gaps in existing memory systems (e.g., RAG, long-context LLMs, and agentic memory) and corresponding reasons. AMemGym not only enables effective selection among competing approaches but also can potentially drive the self-evolution of memory management strategies. By bridging structured state evolution with free-form interactions, our framework provides a scalable, diagnostically rich environment for advancing memory capabilities in conversational agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.