자율적인 수학 연구를 향하여
Towards Autonomous Mathematics Research
최근 기초 모델의 발전으로 국제 수학 올림피아드에서 금메달 수준의 성과를 달성할 수 있는 추론 시스템이 등장했습니다. 하지만, 경쟁 수준의 문제 해결에서 전문적인 연구로 전환하기 위해서는 방대한 문헌을 탐색하고, 장기적인 증명을 구성해야 합니다. 본 연구에서는 Aletheia라는 수학 연구 에이전트를 소개합니다. Aletheia는 자연어 기반으로 솔루션을 반복적으로 생성, 검증 및 수정하는 방식으로 작동합니다. 구체적으로, Aletheia는 어려운 추론 문제에 대한 고급 Gemini Deep Think 모델, 올림피아드 수준의 문제를 넘어 확장되는 새로운 추론 시간 확장 법칙, 그리고 수학 연구의 복잡성을 탐색하기 위한 다양한 도구 활용 기능을 사용합니다. Aletheia는 올림피아드 문제부터 박사 수준의 문제까지 해결할 수 있는 능력을 보여주며, 특히 다음과 같은 AI 기반 수학 연구의 중요한 이정표들을 달성했습니다: (a) AI가 인간의 개입 없이 특정 산술 기하학 구조 상수인 고유 가중치를 계산하는 연구 논문(Feng26); (b) 인간-AI 협력을 통해 상호 작용하는 입자 시스템의 경계를 증명하는 연구 논문(LeeSeo26); (c) Bloom's Erdos Conjecture 데이터베이스의 700개 개방형 문제에 대한 광범위한 준자율 평가(Feng et al., 2026a), 그중 4개의 개방형 질문에 대한 자율적인 솔루션 포함. AI와 수학 분야의 발전에 대한 대중의 이해를 돕기 위해, 본 연구에서는 AI 기반 결과의 표준적인 자율성 및 참신성 수준을 정량화하고, 투명성을 위한 새로운 인간-AI 상호 작용 카드 개념을 제안합니다. 마지막으로, 수학 분야의 인간-AI 협력에 대한 고찰을 제시하고, 모든 프롬프트와 모델 출력을 https://github.com/google-deepmind/superhuman/tree/main/aletheia 에서 확인할 수 있습니다.
Recent advances in foundational models have yielded reasoning systems capable of achieving a gold-medal standard at the International Mathematical Olympiad. The transition from competition-level problem-solving to professional research, however, requires navigating vast literature and constructing long-horizon proofs. In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language. Specifically, Aletheia is powered by an advanced version of Gemini Deep Think for challenging reasoning problems, a novel inference-time scaling law that extends beyond Olympiad-level problems, and intensive tool use to navigate the complexities of mathematical research. We demonstrate the capability of Aletheia from Olympiad problems to PhD-level exercises and most notably, through several distinct milestones in AI-assisted mathematics research: (a) a research paper (Feng26) generated by AI without any human intervention in calculating certain structure constants in arithmetic geometry called eigenweights; (b) a research paper (LeeSeo26) demonstrating human-AI collaboration in proving bounds on systems of interacting particles called independent sets; and (c) an extensive semi-autonomous evaluation (Feng et al., 2026a) of 700 open problems on Bloom's Erdos Conjectures database, including autonomous solutions to four open questions. In order to help the public better understand the developments pertaining to AI and mathematics, we suggest quantifying standard levels of autonomy and novelty of AI-assisted results, as well as propose a novel concept of human-AI interaction cards for transparency. We conclude with reflections on human-AI collaboration in mathematics and share all prompts as well as model outputs at https://github.com/google-deepmind/superhuman/tree/main/aletheia.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.