2601.10305v2 Jan 15, 2026 cs.CV

DanQing: 최신 중국 어휘-이미지 사전 학습을 위한 대규모 데이터셋

DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

H. Shen
H. Shen
Citations: 26
h-index: 2
Tiancheng Gu
Tiancheng Gu
Citations: 185
h-index: 7
Bin Qin
Bin Qin
Citations: 6
h-index: 1
Lan Wu
Lan Wu
Citations: 153
h-index: 7
Yuling Wu
Yuling Wu
Citations: 2
h-index: 1
Shuo Tan
Shuo Tan
Citations: 16
h-index: 3
Zelong Sun
Zelong Sun
Citations: 34
h-index: 4
Jun Wang
Jun Wang
Citations: 55
h-index: 6
Nan Wu
Nan Wu
Citations: 10
h-index: 2
Xiang An
Xiang An
Citations: 880
h-index: 13
Weidong Cai
Weidong Cai
Citations: 63
h-index: 2
Ziyong Feng
Ziyong Feng
Citations: 322
h-index: 9
Kaicheng Yang
Kaicheng Yang
Citations: 239
h-index: 8

어휘-이미지 사전 학습(VLP) 모델은 대규모 이미지-텍스트 쌍을 활용하여 놀라운 성공을 거두었습니다. CLIP 및 SigLIP과 같은 영어 중심 모델은 방대한 데이터셋(예: LAION-400M)의 이점을 누리는 반면, 중국 VLP 모델의 개발은 고품질의 대규모 오픈 소스 데이터 부족으로 인해 어려움을 겪고 있습니다. 본 논문에서는 Common Crawl에서 수집한 1억 개의 고품질 이미지-텍스트 쌍으로 구성된 대규모 중국 멀티모달 데이터셋인 DanQing을 소개합니다. 우수한 데이터 품질을 보장하기 위해 데이터 소스 선택, 텍스트 개선, 시각적 다양성 확보 및 멀티모달 교차 배치 필터링을 포함하는 효과적인 체계적인 파이프라인을 개발하여 웹 데이터에 내재된 노이즈를 효과적으로 완화했습니다. 특히, DanQing은 2024년~2025년 데이터를 포함하여 모델이 최신 의미 추세와 새로운 개념을 파악할 수 있도록 합니다. SigLIP2 모델의 지속적인 사전 학습을 통한 광범위한 실험 결과, DanQing은 제로샷 분류, 멀티모달 검색 및 중국 중심의 대규모 멀티모달 모델 작업 등 다양한 하위 작업에서 기존 중국 데이터셋보다 일관되게 우수한 성능을 보였습니다. 또한, DanQing에 대한 심층적인 분석 결과, 기존 데이터셋에 비해 더 균형 잡힌 의미 분포와 우수한 확장성을 갖는 것으로 나타났습니다. 중국 어휘-이미지 사전 학습 분야의 추가 연구를 촉진하기 위해 DanQing 데이터셋을 Creative Common CC-BY 4.0 라이선스로 공개할 예정입니다.

Original Abstract

Vision-Language Pre-training (VLP) models have achieved remarkable success by leveraging large-scale image-text pairs. While English-centric models like CLIP and SigLIP benefit from massive datasets (e.g., LAION-400M), the development of Chinese VLP remains bottlenecked by the lack of high-quality, large-scale open-source data. In this paper, we present DanQing, a large-scale Chinese cross-modal dataset containing 100 million high-quality image-text pairs curated from Common Crawl. To ensure superior data quality, we develop an effective systematic pipeline comprising data source selection, text refinement, visual diversification, and cross-modal cross-batch filtering, thereby effectively mitigating the intrinsic noise prevalent in web data. Notably, DanQing incorporates data from 2024-2025, enabling models to capture contemporary semantic trends and emerging concepts. Extensive experiments via continued pretraining of SigLIP2 models demonstrate that DanQing consistently outperforms existing Chinese datasets across diverse downstream tasks, including zero-shot classification, cross-modal retrieval, and Chinese-centric large multimodal model tasks. Furthermore, in-depth analysis of DanQing reveals that it exhibits a more balanced semantic distribution and superior scaling capability compared to existing datasets. To facilitate further research in Chinese vision-language pre-training, we will open-source the DanQing dataset under the Creative Common CC-BY 4.0 license.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!