2602.09443v1 Feb 10, 2026 cs.AI

P1-VL: 물리 올림피아드에서의 시각적 인지와 과학적 추론의 연결

P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

Haiyuan Wan
Haiyuan Wan
Citations: 44
h-index: 5
Qianjia Cheng
Qianjia Cheng
Citations: 47
h-index: 3
Jiacheng Chen
Jiacheng Chen
Citations: 350
h-index: 4
Yufeng Zhao
Yufeng Zhao
Citations: 3
h-index: 1
Junchi Yao
Junchi Yao
Citations: 26
h-index: 3
Qingyang Zhang
Qingyang Zhang
Citations: 3
h-index: 1
Li Sheng
Li Sheng
Citations: 24
h-index: 1
Yuxin Zuo
Yuxin Zuo
Citations: 754
h-index: 9
Yizhuo Li
Yizhuo Li
Citations: 276
h-index: 3
Yulun Wu
Yulun Wu
Citations: 48
h-index: 2
Lei Bai
Lei Bai
Citations: 52
h-index: 4
Ning Ding
Ning Ding
Citations: 1
h-index: 1
Peng Ye
Peng Ye
Citations: 15
h-index: 2
Ganqu Cui
Ganqu Cui
Citations: 12,144
h-index: 33
Jianhao Yan
Jianhao Yan
Citations: 23
h-index: 3
Fangchen Yu
Fangchen Yu
Citations: 25
h-index: 3
Yun Luo
Yun Luo
Citations: 6
h-index: 2
Futing Wang
Futing Wang
Citations: 11
h-index: 2
Chenxi Li
Chenxi Li
Citations: 29
h-index: 2
Yuchen Zhang
Yuchen Zhang
Citations: 14
h-index: 2
Shenghe Zheng
Shenghe Zheng
Citations: 24
h-index: 3
Hao He
Hao He
Citations: 1
h-index: 1
Wenxuan Zeng
Wenxuan Zeng
Citations: 98
h-index: 4
Chengxing Xie
Chengxing Xie
Citations: 121
h-index: 4
Rui Huang
Rui Huang
Citations: 14
h-index: 2
Dongzhan Zhou
Dongzhan Zhou
Citations: 96
h-index: 5
Kai Chen
Kai Chen
Citations: 183
h-index: 6
Yu Qiao
Yu Qiao
Citations: 3
h-index: 1
Yu Cheng
Yu Cheng
Citations: 15
h-index: 2
Bo Zhou
Bo Zhou
Citations: 1
h-index: 1
H. Lei
H. Lei
Citations: 854
h-index: 11

기호 조작에서 과학적 수준의 추론으로의 전환은 대규모 언어 모델(LLM)에게 있어 중요한 개척지이며, 물리학은 추상적 논리를 물리적 현실과 결합하는 결정적인 테스트 기준점 역할을 한다. 물리학은 모델이 우주를 지배하는 법칙과의 물리적 일관성을 유지할 것을 요구하며, 이는 추상적 논리를 현실에 기반하게 하기 위해 근본적으로 멀티모달 인지를 필요로 하는 과제이다. 올림피아드 수준에서 도표는 단순히 설명을 보조하는 것이 아니라 문제의 본질을 구성하는 경우가 많으며, 텍스트에는 없는 경계 조건이나 공간 대칭성과 같은 필수적인 제약 조건을 포함하고 있다. 이러한 시각적-논리적 간극을 해소하기 위해, 우리는 고도의 과학적 추론을 위해 설계된 오픈 소스 시각-언어 모델 제품군인 P1-VL을 소개한다. 우리의 방법론은 사후 학습을 안정화하기 위해 점진적 난이도 확장을 사용하는 커리큘럼 강화 학습과, 추론 시 반복적인 자가 검증을 가능하게 하는 에이전트 증강을 조화시킨다. 2024-2025년의 13개 시험으로 구성된 엄격한 벤치마크인 HiPhO에서 평가한 결과, 우리의 주력 모델인 P1-VL-235B-A22B는 오픈 소스 시각-언어 모델(VLM) 최초로 12개의 금메달을 확보했으며 오픈 소스 모델 중 최고 성능(SOTA)을 달성했다. 우리의 에이전트 증강 시스템은 전 세계 종합 2위를 달성했으며, 이는 Gemini-3-Pro의 바로 뒤를 잇는 성적이다. 물리학을 넘어, P1-VL은 놀라운 과학적 추론 능력과 범용성을 보여주며 STEM 벤치마크에서 베이스 모델들에 비해 상당한 우위를 확립했다. P1-VL을 오픈 소스로 공개함으로써, 우리는 기계 과학적 발견을 위해 시각적 인지와 추상적 물리 법칙을 더 잘 정렬시키는 범용 물리 지능을 향한 기초적인 발판을 제공한다.

Original Abstract

The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.

1 Citations
1 Influential
16 Altmetric
83.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!