ReCAPA: 계층적 예측 기반 수정 기법을 통한 연쇄 오류 완화
ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures
비전-언어-행동(VLA) 시스템은 다중 모달 환경에서 지시를 따라 여러 단계를 거쳐 작업을 수행합니다. 최근의 VLA 연구들은 일반적으로 사후 수정 메커니즘에 의존하거나, 고정된 작업 분해 및 정렬 방식을 사용합니다. 그러나 중간 단계에서 오류가 발생하면, 이 오류는 후속 단계로 전파되어 결국 연쇄적인 오류로 이어집니다. 이러한 복합적인 오류 효과를 완화하기 위해, 우리는 예측 정렬 및 계획 아키텍처(Predictive Alignment and Planning Architecture, ReCAPA)라는 프레임워크를 제안합니다. 이 프레임워크는 예측과 대비 학습을 사용하여 행동, 부분 목표, 경로의 세 가지 수준에서 편차를 조정합니다. Sinkhorn 기반 모듈과 점수 필드 모듈을 사용하여 모든 수준에서 의미론적 정렬을 강제합니다. 예측 기반 수정 및 정렬은 훈련 과정에서 액션 생성기를 공동으로 업데이트하여, 전체적인 의도에 맞춰 미세한 단계를 조정할 수 있도록 합니다. 또한, 우리는 작업에서 오류 전파 및 복구 과정을 정량화하기 위한 두 가지 새로운 지표를 도입하여, 오류가 어떻게 전파되고 장기적인 실행 과정에서 사라지는지를 파악합니다. 실험 결과, ReCAPA는 VisualAgentBench, MineDojo, AI2-THOR과 같은 임베디드 에이전트 벤치마크에서 강력한 독점 및 오픈 소스 대규모 언어 모델 기준 성능을 능가하며 경쟁력 있는 결과를 달성했습니다.
Vision-Language-Action systems follow instructions to execute multi-step tasks in multimodal environments. Recent VLA approaches typically rely on post-hoc correction mechanisms or operate under fixed task decompositions and alignment schemes. However, once an intermediate step is mis-specified, local errors propagate through subsequent steps and eventually accumulate into cascading failures. To mitigate this compounding effect, we propose Predictive Alignment and Planning Architecture, a framework that uses prediction and contrast to adjust deviations across three levels: actions, subgoals, and trajectories. Semantic alignment is enforced at all levels using a Sinkhorn-based module and a Score-field module. The predictive correction and alignment jointly update the action generator during training, enabling it to adjust fine-grained steps to remain aligned with the overall intent. We further introduce two new metrics to quantify error propagation and recovery processes in tasks, capturing how mistakes spread and fade over long-horizon execution. Experiments show that ReCAPA achieves competitive results on embodied agent benchmarks such as VisualAgentBench, MineDojo, and AI2-THOR, outperforming strong proprietary and open-source Large Language Model baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.