수동적인 관찰자에서 능동적인 비평자로: 강화 학습을 통한 로봇 조작을 위한 과정 추론 유도
From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation
장시간 로봇 조작 작업에서 정확한 과정 감시는 여전히 중요한 과제입니다. 주요 문제는 현재의 비디오 멀티모달 학습 모델(MLLM)이 대부분 지도 학습(SFT) 방식으로 훈련되어, 현재 상태를 최종 작업 목표와 비교하여 평가하는 능동적인 "비평가" 역할을 수행하는 것이 아니라, 진행 중인 이벤트를 인식하는 수동적인 "관찰자"로 기능한다는 것입니다. 본 논문에서는 70억 개의 파라미터를 가진 프레임워크인 PRIMO R1 (Process Reasoning Induced Monitoring)을 소개합니다. PRIMO R1은 비디오 MLLM을 능동적인 "비평가"로 전환합니다. 우리는 결과 기반 강화 학습을 활용하여 진행 상황 추정을 위한 명시적인 연쇄적 사고(Chain-of-Thought) 생성을 장려합니다. 또한, 저희의 아키텍처는 초기 상태 이미지와 현재 상태 이미지를 명시적으로 연결하여 구조화된 시간적 입력을 구성합니다. 제안된 PRIMO 데이터셋과 벤치마크를 기반으로, 다양한 환경에서의 실험과 실제 휴머노이드 로봇 시나리오에서의 실험을 통해 PRIMO R1이 최첨단 성능을 달성함을 입증했습니다. 정량적으로, 저희의 70억 파라미터 모델은 특수화된 추론 기준 모델의 평균 절대 오차를 50% 감소시켜, 720억 파라미터 규모의 일반적인 MLLM에 비해 상당한 상대적인 정확도 향상을 보였습니다. 또한, PRIMO R1은 어려운 오류 감지 작업에서 뛰어난 제로샷 일반화 성능을 보입니다. 저희는 RoboFail 벤치마크에서 67.0%의 정확도를 달성하여, OpenAI o1과 같은 폐쇄형 모델보다 6.0% 더 높은 성능을 보이며 최첨단 성능을 기록했습니다.
Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.