2601.09708v2 Jan 14, 2026 cs.CV

Fast-ThinkAct: 구두화 가능한 잠재적 계획을 통한 효율적인 시각-언어-행동 추론

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Chi-Pin Huang
Chi-Pin Huang
Citations: 311
h-index: 5
Fu-En Yang
Fu-En Yang
Citations: 914
h-index: 15
Y. Wang
Y. Wang
Citations: 202
h-index: 7
Yunze Man
Yunze Man
Citations: 362
h-index: 8
Zhiding Yu
Zhiding Yu
Citations: 2,614
h-index: 21
Min-Hung Chen
Min-Hung Chen
Citations: 1,150
h-index: 7
Jan Kautz
Jan Kautz
Citations: 2,848
h-index: 21

시각-언어-행동(VLA) 작업은 복잡한 시각적 장면을 이해하고 동적인 환경에서 적응적인 행동을 수행해야 합니다. 최근 VLA 추론 연구에서 명시적인 사고 과정(Chain-of-Thought, CoT)이 일반화 성능을 향상시킬 수 있다는 점이 밝혀졌지만, 이러한 방식은 긴 추론 과정으로 인해 높은 추론 지연 시간을 초래합니다. 본 논문에서는 효율적인 추론 프레임워크인 Fast-ThinkAct을 제안합니다. Fast-ThinkAct은 구두화 가능한 잠재적 추론을 통해 간결하면서도 뛰어난 성능을 보이는 계획을 달성합니다. Fast-ThinkAct은 교사 모델로부터 지식을 전달받아 효율적으로 잠재적 CoT를 학습하며, 선호도 기반의 목표를 통해 언어적 및 시각적 계획 능력을 통합하여 로봇 제어에 활용합니다. 이를 통해 추론 능력이 향상된 정책 학습이 가능해져, 간결한 추론과 행동 실행을 효과적으로 연결합니다. 다양한 로봇 조작 및 추론 벤치마크에 대한 광범위한 실험 결과, Fast-ThinkAct은 최첨단 VLA 방식에 비해 최대 89.3%의 추론 지연 시간을 단축하면서도 효과적인 장기 계획, 적은 샘플 학습 적응, 그리고 오류 복구 능력을 유지하는 강력한 성능을 보여줍니다.

Original Abstract

Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-of-thought (CoT) can improve generalization, they suffer from high inference latency due to lengthy reasoning traces. We propose Fast-ThinkAct, an efficient reasoning framework that achieves compact yet performant planning through verbalizable latent reasoning. Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodied control. This enables reasoning-enhanced policy learning that effectively connects compact reasoning to action execution. Extensive experiments across diverse embodied manipulation and reasoning benchmarks demonstrate that Fast-ThinkAct achieves strong performance with up to 89.3% reduced inference latency over state-of-the-art reasoning VLAs, while maintaining effective long-horizon planning, few-shot adaptation, and failure recovery.

14 Citations
1 Influential
10.5 Altmetric
68.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!