3D-RFT: 비디오 기반 3D 장면 이해를 위한 강화 학습 기반 미세 조정
3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 혁신적인 패러다임으로 부상했지만, 3D 장면 이해 분야에서의 잠재력은 아직 충분히 탐구되지 않았습니다. 기존 접근 방식은 대부분 지도 학습 기반 미세 조정(SFT)에 의존하며, 토큰 수준의 교차 엔트로피 손실은 최적화를 위한 간접적인 지표 역할을 하며, 이는 학습 목표와 실제 성능 간의 불일치를 초래합니다. 이러한 간극을 해소하기 위해, 우리는 비디오 기반 3D 장면 이해를 위한 강화 학습 기반 미세 조정(3D-RFT) 프레임워크를 제안합니다. 3D-RFT는 기존 패러다임을 전환하여 모델을 평가 지표에 직접 최적화합니다. 3D-RFT는 먼저 지도 학습 기반 미세 조정을 통해 3D 인지 및 추론 능력을 갖춘 멀티모달 대규모 언어 모델(MLLM)을 활성화하고, 엄격하게 검증 가능한 보상 함수를 사용하여 그룹 상대 정책 최적화(GRPO)를 통한 강화 학습 기반 미세 조정을 수행합니다. 우리는 3D IoU 및 F1-Score와 같은 평가 지표에서 직접 파생된 작업별 보상 함수를 설계하여 모델 학습을 안내하는 더욱 효과적인 신호를 제공합니다. 광범위한 실험 결과, 3D-RFT-4B는 다양한 비디오 기반 3D 장면 이해 작업에서 최첨단 성능을 달성했습니다. 특히, 3D-RFT-4B는 3D 비디오 감지, 3D 시각적 정렬 및 공간 추론 벤치마크에서 더 큰 모델(예: VG LLM-8B)보다 상당한 성능 향상을 보였습니다. 또한, 3D-RFT의 견고한 효과와 함께, 학습 전략 및 데이터 영향에 대한 귀중한 통찰력을 얻었습니다. 우리는 3D-RFT가 향후 3D 장면 이해 연구 개발을 위한 견고하고 유망한 패러다임으로 자리 잡기를 바랍니다.
Reinforcement Learning with Verifiable Rewards ( RLVR ) has emerged as a transformative paradigm for enhancing the reasoning capabilities of Large Language Models ( LLMs), yet its potential in 3D scene understanding remains under-explored. Existing approaches largely rely on Supervised Fine-Tuning ( SFT), where the token-level cross-entropy loss acts as an indirect proxy for optimization, leading to a misalignment between training objectives and task performances. To bridge this gap, we present Reinforcement Fine-Tuning for Video-based 3D Scene Understanding (3D-RFT ), the first framework to extend RLVR to video-based 3D perception and reasoning. 3D-RFT shifts the paradigm by directly optimizing the model towards evaluation metrics. 3D-RFT first activates 3D-aware Multi-modal Large Language Models ( MLLM s) via SFT, followed by reinforcement fine-tuning using Group Relative Policy Optimization ( GRPO) with strictly verifiable reward functions. We design task-specific reward functions directly from metrics like 3D IoU and F1-Score to provide more effective signals to guide model training. Extensive experiments demonstrate that 3D-RFT-4B achieves state-of-the-art performance on various video-based 3D scene understanding tasks. Notably, 3D-RFT-4B significantly outperforms larger models (e.g., VG LLM-8B) on 3D video detection, 3D visual grounding, and spatial reasoning benchmarks. We further reveal good properties of 3D-RFT such as robust efficacy, and valuable insights into training strategies and data impact. We hope 3D-RFT can serve as a robust and promising paradigm for future development of 3D scene understanding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.