R1-SyntheticVL: 생성 모델에서 생성된 합성 데이터는 다중 모드 대규모 언어 모델에 적합한가?
R1-SyntheticVL: Is Synthetic Data from Generative Models Ready for Multimodal Large Language Model?
본 연구에서는 복잡한 실제 문제 해결 능력을 향상시키기 위해 다중 모드 대규모 언어 모델(MLLM)을 위한 효과적인 데이터 합성 기술을 개발하는 것을 목표로 합니다. 이를 위해, 고품질, 다양하고 도전적인 다중 모드 데이터를 MLLM에 맞게 합성하는 새로운 일반적인 접근 방식인 Collective Adversarial Data Synthesis (CADS)를 제안합니다. CADS의 핵심 아이디어는 집단 지능을 활용하여 고품질이고 다양한 생성을 보장하고, 동시에 적대적 학습을 통해 모델 개선을 효과적으로 이끌어낼 수 있는 도전적인 샘플을 합성하는 것입니다. 구체적으로, CADS는 두 가지 순환 단계, 즉 Collective Adversarial Data Generation (CAD-Generate)과 Collective Adversarial Data Judgment (CAD-Judge)로 작동합니다. CAD-Generate는 집단 지식을 활용하여 새로운 다중 모드 데이터를 공동으로 생성하고, CAD-Judge는 생성된 데이터의 품질을 협력적으로 평가합니다. 또한, CADS는 도전적이고 가치 있는 데이터 생성을 촉진하기 위해 Adversarial Context Optimization 메커니즘을 도입하여 생성 컨텍스트를 최적화합니다. CADS를 통해 MMSynthetic-20K 데이터셋을 구축하고, 이를 사용하여 R1-SyntheticVL 모델을 학습했으며, 이 모델은 다양한 벤치마크에서 우수한 성능을 보였습니다.
In this work, we aim to develop effective data synthesis techniques that autonomously synthesize multimodal training data for enhancing MLLMs in solving complex real-world tasks. To this end, we propose Collective Adversarial Data Synthesis (CADS), a novel and general approach to synthesize high-quality, diverse and challenging multimodal data for MLLMs. The core idea of CADS is to leverage collective intelligence to ensure high-quality and diverse generation, while exploring adversarial learning to synthesize challenging samples for effectively driving model improvement. Specifically, CADS operates with two cyclic phases, i.e., Collective Adversarial Data Generation (CAD-Generate) and Collective Adversarial Data Judgment (CAD-Judge). CAD-Generate leverages collective knowledge to jointly generate new and diverse multimodal data, while CAD-Judge collaboratively assesses the quality of synthesized data. In addition, CADS introduces an Adversarial Context Optimization mechanism to optimize the generation context to encourage challenging and high-value data generation. With CADS, we construct MMSynthetic-20K and train our model R1-SyntheticVL, which demonstrates superior performance on various benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.