Omni-SimpleMem: 자율 연구 기반 다중 모드 에이전트의 평생 기억 시스템 발견
Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory
인공지능 에이전트가 점점 더 긴 시간 동안 작동함에 따라, 다양한 형태의 정보를 저장, 구성 및 회상하는 능력은 중요한 제약 요인이 되고 있습니다. 효과적인 평생 기억 시스템을 구축하려면 아키텍처, 검색 전략, 프롬프트 엔지니어링 및 데이터 파이프라인을 포함하는 광범위한 설계 공간을 탐색해야 하지만, 이 공간은 너무 크고 복잡하여 수동으로 탐색하거나 기존의 AutoML 기술로는 효과적으로 탐색하기 어렵습니다. 본 연구에서는 자율 연구 파이프라인을 활용하여 다중 모드 에이전트의 평생 기억 시스템을 위한 통합 프레임워크인 Omni-SimpleMem을 발견했습니다. Naive한 기준 모델(LoCoMo에서 F1=0.117)에서 시작하여, 파이프라인은 두 개의 벤치마크에서 약 50개의 실험을 자율적으로 실행하며, 실패 원인을 진단하고, 아키텍처 변경을 제안하고, 데이터 파이프라인의 버그를 수정합니다. 이러한 과정을 모두 인간의 개입 없이 수행했습니다. 결과적으로, 개발된 시스템은 두 벤치마크 모두에서 최고 성능을 달성했으며, LoCoMo에서 F1 점수가 +411% (0.117에서 0.598로 증가), Mem-Gallery에서 +214% (0.254에서 0.797로 증가) 향상되었습니다. 특히, 가장 큰 영향을 미친 발견 사항은 하이퍼파라미터 조정이 아니라 버그 수정 (+175%), 아키텍처 변경 (+44%), 프롬프트 엔지니어링 (+188% - 특정 카테고리)이었으며, 각각은 모든 하이퍼파라미터 튜닝의 누적 기여도를 능가합니다. 이는 기존의 AutoML 기술로는 달성할 수 없는 능력을 보여줍니다. 본 연구에서는 6가지 발견 유형에 대한 분류 체계를 제시하고, 다중 모드 메모리가 자율 연구에 특히 적합한 4가지 특성을 식별하여, 자율 연구 파이프라인을 다른 인공지능 시스템 영역에 적용하기 위한 지침을 제공합니다. 관련 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/aiming-lab/SimpleMem.
AI agents increasingly operate over extended time horizons, yet their ability to retain, organize, and recall multimodal experiences remains a critical bottleneck. Building effective lifelong memory requires navigating a vast design space spanning architecture, retrieval strategies, prompt engineering, and data pipelines; this space is too large and interconnected for manual exploration or traditional AutoML to explore effectively. We deploy an autonomous research pipeline to discover Omni-SimpleMem, a unified multimodal memory framework for lifelong AI agents. Starting from a naïve baseline (F1=0.117 on LoCoMo), the pipeline autonomously executes ${\sim}50$ experiments across two benchmarks, diagnosing failure modes, proposing architectural modifications, and repairing data pipeline bugs, all without human intervention in the inner loop. The resulting system achieves state-of-the-art on both benchmarks, improving F1 by +411% on LoCoMo (0.117$\to$0.598) and +214% on Mem-Gallery (0.254$\to$0.797) relative to the initial configurations. Critically, the most impactful discoveries are not hyperparameter adjustments: bug fixes (+175%), architectural changes (+44%), and prompt engineering (+188% on specific categories) each individually exceed the cumulative contribution of all hyperparameter tuning, demonstrating capabilities fundamentally beyond the reach of traditional AutoML. We provide a taxonomy of six discovery types and identify four properties that make multimodal memory particularly suited for autoresearch, offering guidance for applying autonomous research pipelines to other AI system domains. Code is available at this https://github.com/aiming-lab/SimpleMem.
AI Analysis
Korean Summary
Key Innovations
Learning & Inference Impact
Technical Difficulty
Estimated implementation complexity based on methodology.