Xuanwu: 범용 멀티모달 모델을 산업 수준의 콘텐츠 생태계 기반 모델로 발전시키기
Xuanwu: Evolving General Multimodal Models into an Industrial-Grade Foundation for Content Ecosystems
최근 몇 년 동안 멀티모달 대규모 모델은 일반적인 벤치마크에서 지속적으로 성능을 향상해 왔습니다. 그러나 실제 콘텐츠 관리 및 적대적인 환경에서, 주류 모델은 여전히 제한적인 세밀한 시각적 인식과 장기적인 노이즈 모델링 부족으로 인해 일반화 능력 저하 및 재앙적인 망각 문제를 겪고 있습니다. 본 논문에서는 Xuanwu VL-2B를 사례 연구로 제시하여, 일반적인 멀티모달 모델이 콘텐츠 생태계를 위한 산업 수준의 기반 모델로 어떻게 개발될 수 있는지 보여줍니다. 이 모델은 InternViT-300M + MLP + Qwen3 1.7B 아키텍처를 채택하여, 약 20억 개의 파라미터 예산 내에서 세밀한 시각적 인식, 언어-의미 정렬, 그리고 배포 비용 간의 균형을 맞춥니다. 비즈니스 전문성과 일반적인 기능 유지 간의 균형을 맞추기 위해, 데이터 반복 및 큐레이션 메커니즘을 개발하고, 사전 훈련, 중간 훈련, 그리고 사후 훈련의 점진적인 세 단계 파이프라인을 통해 모델을 학습했습니다. 실험 결과 및 오프라인 비즈니스 평가에서 Xuanwu VL-2B는 7개의 OpenCompass 멀티모달 지표에서 평균 67.90점을 달성했으며 (InternVL 3.5 2B의 경우 64.27점), 7개의 독립적인 비즈니스 관리 작업에서 평균 94.38%의 재현율을 보였으며, 어려운 적대적인 광학 문자 인식(OCR) 시나리오에서 정책 위반 텍스트에 대한 가중 평균 재현율은 82.82%로, Gemini-2.5-Pro (76.72%)보다 뛰어난 성능을 보였습니다. 이러한 결과는 제한된 파라미터 예산 하에서 Xuanwu VL-2B가 비즈니스 적합성, 시각적 인식, 일반적인 기능 유지, 그리고 배포 비용 간의 실질적인 균형을 달성한다는 것을 보여줍니다.
In recent years, multimodal large models have continued to improve on general benchmarks. However, in real-world content moderation and adversarial settings, mainstream models still suffer from degraded generalization and catastrophic forgetting because of limited fine-grained visual perception and insufficient modeling of long-tail noise. In this paper, we present Xuanwu VL-2B as a case study of how general multimodal models can be developed into an industrial-grade foundation model for content ecosystems. The model adopts a compact InternViT-300M + MLP + Qwen3 1.7B architecture, balancing fine-grained visual perception, language-semantic alignment, and deployment cost within an approximately 2B-parameter budget. To balance business specialization with the retention of general capabilities, we developed a data iteration and curation mechanism and trained the model through a progressive three-stage pipeline: pre-training, mid-training, and post-training. Ablation studies and offline business evaluations show that Xuanwu VL-2B achieves an average score of 67.90 across seven OpenCompass multimodal metrics (vs. 64.27 for InternVL 3.5 2B), an average recall of 94.38% over seven independent business moderation tasks, and a weighted overall recall of 82.82% on policy-violating text in challenging adversarial OCR scenarios, outperforming Gemini-2.5-Pro (76.72%). These results show that, under a limited parameter budget, Xuanwu VL-2B achieves a practical balance among business alignment, visual perception, general capability retention, and deployment cost.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.