카멜레온: 장기 로봇 조작을 위한 에피소드 기억
Chameleon: Episodic Memory for Long-Horizon Robotic Manipulation
로봇 조작은 종종 기억을 필요로 합니다. 가려짐과 상태 변화는 의사 결정 시의 관찰을 시각적으로 왜곡시켜, 동일한 관찰이 서로 다른 상호 작용 기록에서 발생할 수 있기 때문에 행동 선택을 관찰 수준에서 마르코프 과정을 따르지 않게 만듭니다. 대부분의 로봇 에이전트는 의미적으로 압축된 기록과 유사성 기반 검색을 통해 기억을 구현하는데, 이는 구별하는 세밀한 시각적 단서를 버리고, 시각적으로 유사하지만 의사 결정에 관련 없는 에피소드를 반환할 수 있습니다. 인간의 에피소드 기억에서 영감을 받아, 우리는 구별하는 맥락을 보존하기 위해 기하학적 정보를 기반으로 한 다중 모드 토큰을 기록하고, 미분 가능한 메모리 스택을 통해 목표 지향적인 회상을 수행하는 카멜레온을 제안합니다. 또한, 에피소드 기억, 공간 추적 및 시각적 왜곡 환경에서의 순차적 조작을 포함하는 실제 로봇 UR5e 데이터셋인 Camo-Dataset을 소개합니다. 다양한 작업에서, 카멜레온은 시각적으로 혼동될 수 있는 환경에서 강력한 기준 모델보다 의사 결정의 신뢰성과 장기적인 제어 능력을 꾸준히 향상시켰습니다.
Robotic manipulation often requires memory: occlusion and state changes can make decision-time observations perceptually aliased, making action selection non-Markovian at the observation level because the same observation may arise from different interaction histories. Most embodied agents implement memory via semantically compressed traces and similarity-based retrieval, which discards disambiguating fine-grained perceptual cues and can return perceptually similar but decision-irrelevant episodes. Inspired by human episodic memory, we propose Chameleon, which writes geometry-grounded multimodal tokens to preserve disambiguating context and produces goal-directed recall through a differentiable memory stack. We also introduce Camo-Dataset, a real-robot UR5e dataset spanning episodic recall, spatial tracking, and sequential manipulation under perceptual aliasing. Across tasks, Chameleon consistently improves decision reliability and long-horizon control over strong baselines in perceptually confusable settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.