2601.19325v1 Jan 27, 2026 cs.CV

Innovator-VL: 과학적 발견을 위한 다중 모드 대규모 언어 모델

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Zichen Wen
Zichen Wen
Citations: 492
h-index: 13
Haoyi Tao
Haoyi Tao
Citations: 13
h-index: 2
Han Lyu
Han Lyu
Citations: 41
h-index: 2
Guolin Ke
Guolin Ke
Citations: 601
h-index: 12
Xi Fang
Xi Fang
Citations: 38
h-index: 4
Nang Yuan
Nang Yuan
Citations: 4
h-index: 1
Zhen Wang
Zhen Wang
Citations: 321
h-index: 4
Xiaoxing Wang
Xiaoxing Wang
Citations: 13
h-index: 3
E. Weinan
E. Weinan
Citations: 126
h-index: 5
Yanfeng Wang
Yanfeng Wang
Citations: 172
h-index: 3
Boxue Yang
Boxue Yang
Citations: 14
h-index: 2
Shuang Chen
Shuang Chen
Citations: 62
h-index: 4
Yaojie Zhang
Yaojie Zhang
Citations: 119
h-index: 4
Yuhang Han
Yuhang Han
Citations: 48
h-index: 4
Junlong Ke
Junlong Ke
Citations: 11
h-index: 2
Cong Wang
Cong Wang
Citations: 61
h-index: 4
Yicheng Fu
Yicheng Fu
Citations: 11
h-index: 2
Jiawang Zhao
Jiawang Zhao
Citations: 31
h-index: 3
Jiangchao Yao
Jiangchao Yao
Citations: 2,767
h-index: 21
H. Cai
H. Cai
Citations: 104
h-index: 5
Linli Yao
Linli Yao
Citations: 563
h-index: 6
Zhifeng Gao
Zhifeng Gao
Citations: 10
h-index: 2
Yanhui Hong
Yanhui Hong
Citations: 53
h-index: 4
Yixuan Li
Yixuan Li
Citations: 5
h-index: 1
Guojiang Zhao
Guojiang Zhao
Citations: 35
h-index: 4
Nan Wang
Nan Wang
Citations: 26
h-index: 4
Ning Liao
Ning Liao
Citations: 7
h-index: 2
Kai Chen
Kai Chen
Citations: 10
h-index: 2
Zhiyu Li
Zhiyu Li
Citations: 37
h-index: 2
Feiyu Xiong
Feiyu Xiong
Citations: 752
h-index: 16
Sihan Hu
Sihan Hu
Citations: 9
h-index: 2
Kun Chen
Kun Chen
Citations: 5
h-index: 1
Linfeng Zhang
Linfeng Zhang
Citations: 41
h-index: 2

본 논문에서는 과학적 이해와 추론 능력을 향상시키고, 일반적인 시각 작업에서도 뛰어난 성능을 유지하도록 설계된 다중 모드 대규모 언어 모델인 Innovator-VL을 소개합니다. 기존의 대규모 도메인 특화 사전 학습 및 불투명한 파이프라인에 의존하는 경향과 달리, 본 연구는 체계적인 학습 설계 및 투명한 방법론이 상당한 데이터 요구량 감소에도 불구하고 강력한 과학적 지능을 구현할 수 있음을 보여줍니다. (i) 첫째, 데이터 수집, 정제, 전처리, 지도 학습, 강화 학습, 평가를 포함하는 완전하고 투명하며 재현 가능한 학습 파이프라인과 상세한 최적화 방법을 제공하여, 커뮤니티의 체계적인 확장을 용이하게 합니다. (ii) 둘째, Innovator-VL은 뛰어난 데이터 효율성을 보여주며, 대규모 사전 학습 없이 5백만 개 미만의 선별된 데이터 샘플을 사용하여 다양한 과학적 작업에서 경쟁력 있는 성능을 달성합니다. 이러한 결과는 효과적인 추론이 무분별한 확장이 아닌 체계적인 데이터 선택을 통해 달성될 수 있음을 강조합니다. (iii) 셋째, Innovator-VL은 일반적인 시각, 다중 모드 추론 및 과학적 벤치마크에서 경쟁력 있는 성능을 보여주며, 이는 과학적 정렬을 일반적인 기능을 손상시키지 않고 통합된 모델에 통합할 수 있음을 나타냅니다. 본 연구의 결과는 대규모 데이터 없이도 효율적이고 재현 가능하며 고성능의 과학적 다중 모드 모델을 구축할 수 있음을 시사하며, 이는 향후 연구를 위한 실질적인 기반을 제공합니다.

Original Abstract

We present Innovator-VL, a scientific multimodal large language model designed to advance understanding and reasoning across diverse scientific domains while maintaining excellent performance on general vision tasks. Contrary to the trend of relying on massive domain-specific pretraining and opaque pipelines, our work demonstrates that principled training design and transparent methodology can yield strong scientific intelligence with substantially reduced data requirements. (i) First, we provide a fully transparent, end-to-end reproducible training pipeline, covering data collection, cleaning, preprocessing, supervised fine-tuning, reinforcement learning, and evaluation, along with detailed optimization recipes. This facilitates systematic extension by the community. (ii) Second, Innovator-VL exhibits remarkable data efficiency, achieving competitive performance on various scientific tasks using fewer than five million curated samples without large-scale pretraining. These results highlight that effective reasoning can be achieved through principled data selection rather than indiscriminate scaling. (iii) Third, Innovator-VL demonstrates strong generalization, achieving competitive performance on general vision, multimodal reasoning, and scientific benchmarks. This indicates that scientific alignment can be integrated into a unified model without compromising general-purpose capabilities. Our practices suggest that efficient, reproducible, and high-performing scientific multimodal models can be built even without large-scale data, providing a practical foundation for future research.

4 Citations
0 Influential
10.5 Altmetric
56.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!