장기 신경-기호 메모리를 활용한 다중 모드 에이전트 추론 능력 향상
Advancing Multimodal Agent Reasoning with Long-Term Neuro-Symbolic Memory
최근 대규모 언어 모델의 발전으로 인해 개방형 환경에서 다중 모드를 활용하는 지능형 에이전트가 등장하고 있습니다. 이러한 에이전트는 장기적인 추론을 지원하기 위해 일반적으로 외부 메모리 시스템을 사용합니다. 그러나 대부분의 기존 다중 모드 에이전트 메모리는 주로 신경망 표현과 벡터 기반 검색에 의존하는데, 이는 귀납적, 직관적인 추론에는 적합하지만 실제 의사 결정에 필수적인 분석적, 연역적 추론을 지원하는 데 근본적인 한계가 있습니다. 이러한 한계를 해결하기 위해, 우리는 신경망 메모리와 명시적인 기호 구조 및 규칙을 통합하여 다중 모드 에이전트의 추론 능력을 향상시키는 장기 신경-기호 메모리 프레임워크인 NS-Mem을 제안합니다. 구체적으로, NS-Mem은 메모리 시스템의 세 가지 핵심 구성 요소를 기반으로 작동합니다: (1) 에피소드 레이어, 의미 레이어 및 논리 규칙 레이어로 구성된 3계층 메모리 아키텍처, (2) SK-Gen을 통해 구현된 메모리 구성 및 유지 관리 메커니즘으로, 축적된 다중 모드 경험으로부터 구조화된 지식을 자동으로 통합하고 신경망 표현과 기호 규칙을 점진적으로 업데이트하며, (3) 유사성 기반 검색과 결정론적인 기호 쿼리 함수를 결합한 하이브리드 메모리 검색 메커니즘으로, 구조화된 추론을 지원합니다. 실제 다중 모드 추론 벤치마크 실험 결과, 신경-기호 메모리는 순수 신경망 메모리 시스템에 비해 평균 4.35%의 전반적인 추론 정확도 향상을 보였으며, 제한적인 추론 쿼리에서는 최대 12.5%의 성능 향상을 보여 NS-Mem의 효과를 입증했습니다.
Recent advances in large language models have driven the emergence of intelligent agents operating in open-world, multimodal environments. To support long-term reasoning, such agents are typically equipped with external memory systems. However, most existing multimodal agent memories rely primarily on neural representations and vector-based retrieval, which are well-suited for inductive, intuitive reasoning but fundamentally limited in supporting analytical, deductive reasoning critical for real-world decision making. To address this limitation, we propose NS-Mem, a long-term neuro-symbolic memory framework designed to advance multimodal agent reasoning by integrating neural memory with explicit symbolic structures and rules. Specifically, NS-Mem is operated around three core components of a memory system: (1) a three-layer memory architecture that consists episodic layer, semantic layer and logic rule layer, (2) a memory construction and maintenance mechanism implemented by SK-Gen that automatically consolidates structured knowledge from accumulated multimodal experiences and incrementally updates both neural representations and symbolic rules, and (3) a hybrid memory retrieval mechanism that combines similarity-based search with deterministic symbolic query functions to support structured reasoning. Experiments on real-world multimodal reasoning benchmarks demonstrate that Neural-Symbolic Memory achieves an average 4.35% improvement in overall reasoning accuracy over pure neural memory systems, with gains of up to 12.5% on constrained reasoning queries, validating the effectiveness of NS-Mem.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.