P1-VL: 물리 올림피아드에서의 시각적 인지와 과학적 추론의 연결
P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads
기호 조작에서 과학적 수준의 추론으로의 전환은 대규모 언어 모델(LLM)에게 있어 중요한 개척지이며, 물리학은 추상적 논리를 물리적 현실과 결합하는 결정적인 테스트 기준점 역할을 한다. 물리학은 모델이 우주를 지배하는 법칙과의 물리적 일관성을 유지할 것을 요구하며, 이는 추상적 논리를 현실에 기반하게 하기 위해 근본적으로 멀티모달 인지를 필요로 하는 과제이다. 올림피아드 수준에서 도표는 단순히 설명을 보조하는 것이 아니라 문제의 본질을 구성하는 경우가 많으며, 텍스트에는 없는 경계 조건이나 공간 대칭성과 같은 필수적인 제약 조건을 포함하고 있다. 이러한 시각적-논리적 간극을 해소하기 위해, 우리는 고도의 과학적 추론을 위해 설계된 오픈 소스 시각-언어 모델 제품군인 P1-VL을 소개한다. 우리의 방법론은 사후 학습을 안정화하기 위해 점진적 난이도 확장을 사용하는 커리큘럼 강화 학습과, 추론 시 반복적인 자가 검증을 가능하게 하는 에이전트 증강을 조화시킨다. 2024-2025년의 13개 시험으로 구성된 엄격한 벤치마크인 HiPhO에서 평가한 결과, 우리의 주력 모델인 P1-VL-235B-A22B는 오픈 소스 시각-언어 모델(VLM) 최초로 12개의 금메달을 확보했으며 오픈 소스 모델 중 최고 성능(SOTA)을 달성했다. 우리의 에이전트 증강 시스템은 전 세계 종합 2위를 달성했으며, 이는 Gemini-3-Pro의 바로 뒤를 잇는 성적이다. 물리학을 넘어, P1-VL은 놀라운 과학적 추론 능력과 범용성을 보여주며 STEM 벤치마크에서 베이스 모델들에 비해 상당한 우위를 확립했다. P1-VL을 오픈 소스로 공개함으로써, 우리는 기계 과학적 발견을 위해 시각적 인지와 추상적 물리 법칙을 더 잘 정렬시키는 범용 물리 지능을 향한 기초적인 발판을 제공한다.
The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.