FeynmanBench: 다중 모드 대규모 언어 모델의 다이어그램 기반 물리학 추론 성능 평가
FeynmanBench: Benchmarking Multimodal LLMs on Diagrammatic Physics Reasoning
최첨단 이론의 발전은 종종 구체적인 다이어그램 표기법과 엄격한 논리의 결합에 달려 있습니다. 다중 모드 대규모 언어 모델(MLLM)은 일반적인 과학적 작업에서 유망한 가능성을 보여주지만, 현재 벤치마크는 종종 형식적인 과학적 표기법에 내재된 전반적인 구조적 논리보다는 지역 정보 추출에 초점을 맞추는 경향이 있습니다. 본 연구에서는 페인만 다이어그램 관련 작업에 중점을 둔 최초의 벤치마크인 FeynmanBench를 소개합니다. FeynmanBench는 인공지능이 다단계 다이어그램 추론 능력을 평가하도록 설계되었으며, 이는 보존 법칙 및 대칭 제약 조건 충족, 그래프 토폴로지 식별, 다이어그램 표현과 대수 표현 간 변환, 특정 규칙 및 게이지 하에서의 산란 진폭 구성 등을 필요로 합니다. 대규모 및 재현 가능한 평가를 지원하기 위해, 검증 가능한 토폴로지 주석 및 진폭 결과를 포함하는 다양한 페인만 다이어그램을 생성하는 자동화된 파이프라인을 개발했습니다. 당사의 데이터베이스는 표준 모델의 전자기력, 약력 및 강력을 포괄하며, 100가지 이상의 고유한 유형을 포함하고 2000개 이상의 작업을 포함합니다. 최첨단 MLLM에 대한 실험 결과, 물리적 제약 조건의 불안정한 적용 및 전역 토폴로지 조건 위반과 같은 체계적인 오류 패턴이 나타났으며, 이는 과학적 표기법에 대한 시각적 추론에 대한 물리학 기반 벤치마크의 필요성을 강조합니다. FeynmanBench는 인공지능이 과학적 발견, 특히 이론 물리학 분야에서 효과적으로 활용될 수 있는지에 대한 논리적으로 엄격한 테스트를 제공합니다.
Breakthroughs in frontier theory often depend on the combination of concrete diagrammatic notations with rigorous logic. While multimodal large language models (MLLMs) show promise in general scientific tasks, current benchmarks often focus on local information extraction rather than the global structural logic inherent in formal scientific notations. In this work, we introduce FeynmanBench, the first benchmark centered on Feynman diagram tasks. It is designed to evaluate AI's capacity for multistep diagrammatic reasoning, which requires satisfying conservation laws and symmetry constraints, identifying graph topology, converting between diagrammatic and algebraic representations, and constructing scattering amplitudes under specific conventions and gauges. To support large-scale and reproducible evaluation, we developed an automated pipeline producing diverse Feynman diagrams along with verifiable topological annotations and amplitude results. Our database spans the electromagnetic, weak, and strong interactions of the Standard Model, encompasses over 100 distinct types and includes more than 2000 tasks. Experiments on state-of-the-art MLLMs reveal systematic failure modes, including unstable enforcement of physical constraints and violations of global topological conditions, highlighting the need for physics-grounded benchmarks for visual reasoning over scientific notation. FeynmanBench provides a logically rigorous test of whether AI can effectively engage in scientific discovery, particularly within theoretical physics.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.