Fast-ThinkAct: 구두화 가능한 잠재적 계획을 통한 효율적인 시각-언어-행동 추론
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
시각-언어-행동(VLA) 작업은 복잡한 시각적 장면을 이해하고 동적인 환경에서 적응적인 행동을 수행해야 합니다. 최근 VLA 추론 연구에서 명시적인 사고 과정(Chain-of-Thought, CoT)이 일반화 성능을 향상시킬 수 있다는 점이 밝혀졌지만, 이러한 방식은 긴 추론 과정으로 인해 높은 추론 지연 시간을 초래합니다. 본 논문에서는 효율적인 추론 프레임워크인 Fast-ThinkAct을 제안합니다. Fast-ThinkAct은 구두화 가능한 잠재적 추론을 통해 간결하면서도 뛰어난 성능을 보이는 계획을 달성합니다. Fast-ThinkAct은 교사 모델로부터 지식을 전달받아 효율적으로 잠재적 CoT를 학습하며, 선호도 기반의 목표를 통해 언어적 및 시각적 계획 능력을 통합하여 로봇 제어에 활용합니다. 이를 통해 추론 능력이 향상된 정책 학습이 가능해져, 간결한 추론과 행동 실행을 효과적으로 연결합니다. 다양한 로봇 조작 및 추론 벤치마크에 대한 광범위한 실험 결과, Fast-ThinkAct은 최첨단 VLA 방식에 비해 최대 89.3%의 추론 지연 시간을 단축하면서도 효과적인 장기 계획, 적은 샘플 학습 적응, 그리고 오류 복구 능력을 유지하는 강력한 성능을 보여줍니다.
Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-of-thought (CoT) can improve generalization, they suffer from high inference latency due to lengthy reasoning traces. We propose Fast-ThinkAct, an efficient reasoning framework that achieves compact yet performant planning through verbalizable latent reasoning. Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodied control. This enables reasoning-enhanced policy learning that effectively connects compact reasoning to action execution. Extensive experiments across diverse embodied manipulation and reasoning benchmarks demonstrate that Fast-ThinkAct achieves strong performance with up to 89.3% reduced inference latency over state-of-the-art reasoning VLAs, while maintaining effective long-horizon planning, few-shot adaptation, and failure recovery.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.