DeepVision-103K: 시각적 다양성, 광범위한 보편성, 그리고 검증 가능한 수학 데이터셋: 다중 모드 추론을 위한 데이터셋
DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning
검증 가능한 보상(RLVR)을 이용한 강화 학습은 대규모 다중 모드 모델(LMM)의 시각적 이해 및 추론 능력을 향상시키는 데 효과적인 것으로 나타났습니다. 그러나 기존 데이터셋은 대부분 소규모의 수동 구축 또는 기존 자원의 재조합으로 구성되어 있어 데이터의 다양성과 보편성이 제한되며, 이는 모델 성능 향상에 제약을 줍니다. 이에, 우리는 RLVR 훈련을 위한 포괄적인 데이터셋인 **DeepVision-103K**를 소개합니다. DeepVision-103K는 다양한 K12 수학 주제, 광범위한 지식 요소, 그리고 풍부한 시각적 요소를 포함합니다. DeepVision으로 훈련된 모델은 다중 모드 수학 벤치마크에서 뛰어난 성능을 보이며, 일반적인 다중 모드 추론 작업에도 효과적으로 적용됩니다. 추가 분석 결과, 훈련된 모델에서 향상된 시각적 인식, 반성 및 추론 능력이 확인되었으며, 이는 DeepVision이 다중 모드 추론 발전에 효과적임을 입증합니다. 데이터: [https://huggingface.co/datasets/skylenage/DeepVision-103K](https://huggingface.co/datasets/skylenage/DeepVision-103K) (해당 URL)}
Reinforcement Learning with Verifiable Rewards (RLVR) has been shown effective in enhancing the visual reflection and reasoning capabilities of Large Multimodal Models (LMMs). However, existing datasets are predominantly derived from either small-scale manual construction or recombination of prior resources, which limits data diversity and coverage, thereby constraining further gains in model performance. To this end, we introduce \textbf{DeepVision-103K}, a comprehensive dataset for RLVR training that covers diverse K12 mathematical topics, extensive knowledge points, and rich visual elements. Models trained on DeepVision achieve strong performance on multimodal mathematical benchmarks, and generalize effectively to general multimodal reasoning tasks. Further analysis reveals enhanced visual perception, reflection and reasoning capabilities in trained models, validating DeepVision's effectiveness for advancing multimodal reasoning. Data: \href{https://huggingface.co/datasets/skylenage/DeepVision-103K}{this url}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.