2604.18791v1 Apr 20, 2026 cs.LG

HELM: 활용 증강 장기 기억을 활용한 시각-언어-행동 조작

HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation

Zijian Zeng
Zijian Zeng
Citations: 10
h-index: 2
Huiming Yang
Huiming Yang
Citations: 0
h-index: 0
Fei Ding
Fei Ding
Citations: 15
h-index: 2
Xianwei Li
Xianwei Li
Citations: 14
h-index: 2

시각-언어-행동(VLA) 모델은 단기 성능은 뛰어나지만, 장기 조작 작업에서는 체계적으로 실패합니다. 본 연구에서는 이러한 실패가 현재의 반응형 실행 방식에서 단순히 컨텍스트 길이를 늘리는 것만으로는 해결되지 않으며, 오히려 세 가지 반복적인 실행 루프 결함, 즉 '기억 간극', '검증 간극', 그리고 '복구 간극'에서 비롯된다는 것을 보여줍니다. 우리는 이러한 결함을 해결하기 위한 모델에 독립적인 프레임워크인 HELM을 제시합니다. HELM은 세 가지 구성 요소로 이루어져 있습니다. 첫째, CLIP 인덱싱을 통해 핵심 작업 기록을 검색하는 에피소드 기억 모듈(EMM), 둘째, 관찰, 행동, 하위 목표, 그리고 기억에 기반한 컨텍스트로부터 실행 전에 행동 실패를 예측하는 학습 기반 상태 검증기(SV), 그리고 셋째, 롤백 및 재계획을 수행하는 활용 제어기(HC)입니다. SV는 HELM의 핵심 학습 기여 부분이며, 기존의 규칙 기반 실행 가능성 검사 및 앙상블 불확실성 기준 모델보다 일관되게 우수한 성능을 보입니다. SV의 효과는 에피소드 기억에 대한 접근에 크게 의존합니다. LIBERO-LONG 데이터셋에서 HELM은 OpenVLA보다 작업 성공률을 23.1% 향상시켰습니다 (58.4%에서 81.5%로). 컨텍스트 창을 H=32로 확장했을 때 5.4%의 성능 향상만 있었으며, 동일한 예산으로 LoRA 적응을 사용하더라도 12.2% 낮은 성능을 보였습니다. HELM은 CALVIN에서도 장기 성능을 향상시키고, 제어된 교란 상황에서 복구 성공률을 크게 높입니다. 추가적인 분석을 통해 각 구성 요소의 기여도를 분리하여 평가했으며, 장기 조작 작업에서의 실패 복구를 평가하기 위한 교란 주입 프로토콜인 LIBERO-Recovery를 공개합니다.

Original Abstract

Vision-Language-Action (VLA) models fail systematically on long-horizon manipulation tasks despite strong short-horizon performance. We show that this failure is not resolved by extending context length alone in the current reactive execution setting; instead, it stems from three recurring execution-loop deficiencies: the memory gap, the verification gap, and the recovery gap. We present HELM, a model-agnostic framework that addresses these deficiencies with three components: an Episodic Memory Module (EMM) that retrieves key task history via CLIP-indexed keyframes, a learned State Verifier (SV) that predicts action failure before execution from observation, action, subgoal, and memory-conditioned context, and a Harness Controller (HC) that performs rollback and replanning. The SV is the core learning contribution: it consistently outperforms rule-based feasibility checks and ensemble uncertainty baselines, and its effectiveness depends critically on access to episodic memory. On LIBERO-LONG, HELM improves task success rate by 23.1 percentage points over OpenVLA (58.4% to 81.5%), while extending the context window to H=32 yields only a 5.4-point gain and same-budget LoRA adaptation remains 12.2 points below HELM. HELM also improves long-horizon performance on CALVIN and substantially boosts recovery success under controlled perturbations. Ablations and mechanism analyses isolate the contribution of each component, and we release LIBERO-Recovery as a perturbation-injection protocol for evaluating failure recovery in long-horizon manipulation.

0 Citations
0 Influential
1 Altmetric
5.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!