2602.21201v1 Feb 24, 2026 cs.AI

Aletheia, FirstProof를 자율적으로 해결하다

Aletheia tackles FirstProof autonomously

Tony Feng
Tony Feng
Citations: 18
h-index: 2
Carlo Pagano
Carlo Pagano
Citations: 20
h-index: 2
Sergei Gukov
Sergei Gukov
Citations: 55
h-index: 4
David P. Woodruff
David P. Woodruff
Citations: 3
h-index: 1
Adel Javanmard
Adel Javanmard
Citations: 25
h-index: 3
Aryan Mokhtari
Aryan Mokhtari
Citations: 12
h-index: 1
Dawsen Hwang
Dawsen Hwang
Citations: 2,064
h-index: 3
Yuri Chervonyi
Yuri Chervonyi
Citations: 2,206
h-index: 7
G. Bingham
G. Bingham
Citations: 2,100
h-index: 5
Trieu H. Trinh
Trieu H. Trinh
Citations: 3,679
h-index: 10
V. Mirrokni
V. Mirrokni
Citations: 20,546
h-index: 62
Quoc V. Le
Quoc V. Le
Citations: 774
h-index: 5
Thang Luong
Thang Luong
Citations: 747
h-index: 4
Junehyuk Jung
Junehyuk Jung
Citations: 2,138
h-index: 5
Sang-hyun Kim
Sang-hyun Kim
Citations: 8
h-index: 2
Chiang-Chiang Tsai
Chiang-Chiang Tsai
Citations: 0
h-index: 0
Jonathan Lee
Jonathan Lee
Citations: 31
h-index: 2

우리는 제1회 FirstProof 챌린지에서 Gemini 3 Deep Think로 구동되는 수학 연구 에이전트인 Aletheia(Feng et al., 2026b)의 성능을 보고한다. 챌린지의 허용된 제한 시간 내에, 다수 전문가의 평가에 따르면 Aletheia는 10문제 중 6문제(2, 5, 7, 8, 9, 10)를 자율적으로 해결했다. 단, 8번 문제에 한해서만 전문가들의 의견이 만장일치하지 않았음을 밝혀둔다. 완전한 투명성을 기하기 위해 우리는 FirstProof에 대한 우리의 해석을 설명하고 평가 및 실험에 대한 세부 사항을 공개한다. 원본 프롬프트와 출력 결과는 https://github.com/google-deepmind/superhuman/tree/main/aletheia 에서 확인할 수 있다.

Original Abstract

We report the performance of Aletheia (Feng et al., 2026b), a mathematics research agent powered by Gemini 3 Deep Think, on the inaugural FirstProof challenge. Within the allowed timeframe of the challenge, Aletheia autonomously solved 6 problems (2, 5, 7, 8, 9, 10) out of 10 according to majority expert assessments; we note that experts were not unanimous on Problem 8 (only). For full transparency, we explain our interpretation of FirstProof and disclose details about our experiments as well as our evaluation. Raw prompts and outputs are available at https://github.com/google-deepmind/superhuman/tree/main/aletheia.

0 Citations
0 Influential
81.567740231385 Altmetric
407.8 Score

AI Analysis

Korean Summary

이 논문은 구글 딥마인드의 수학 연구 AI 에이전트인 Aletheia(Gemini 3 Deep Think 기반)가 최상위 연구 수준의 수학 난제 세트인 FirstProof 챌린지에서 거둔 성과를 분석합니다. Aletheia는 사람의 개입 없이 주어진 10개의 문제 중 6개(P2, P5, P7, P8, P9, P10)를 자율적으로 해결하는 데 성공했습니다. 이 에이전트는 원시 문제 프롬프트를 바탕으로 수학 문헌의 엄밀성을 충족하는 출판 가능 수준의 LaTeX 증명을 직접 생성해냈으며, 확실하지 않은 경우 오답을 생성하기보다 '해결책 없음'을 반환하는 자체 필터링 기능을 통해 높은 신뢰성을 입증했습니다.

Key Innovations

  • 인간 전문가의 개입(Human-in-the-loop) 없이 증명 생성부터 LaTeX 형식화까지 수행하는 완전 자율형 AI 수학 연구 파이프라인
  • 학술지 동료 평가(Peer Review) 과정을 모사하여 논리적 비약과 엄밀성을 스스로 평가하는 검증 및 추출 프롬프트(Verification and extraction prompt) 도입
  • 환각(Hallucination)을 줄이고 신뢰성을 확보하기 위해 답을 찾지 못할 경우 '해결책 없음(No solution found)'을 반환하는 자율적 필터링 메커니즘
  • 문제의 난이도와 복잡성에 비례하여 에이전트의 추론 시간 연산(Inference-time compute)을 동적으로 대폭 확장하는 구조

Learning & Inference Impact

이 연구는 AI의 성능이 학습(Training) 단계를 넘어 추론(Inference) 단계의 연산량 확장(Test-time compute scaling)을 통해 연구 수준의 수학적 발견으로 이어질 수 있음을 강력하게 보여줍니다. Aletheia는 생성기(Generator)와 검증기(Verifier) 서브에이전트 간의 반복적인 상호작용을 거치며, 해결이 어려운 문제(예: 문제 7)의 경우 기존보다 한 자릿수 이상 큰 비용의 추론 연산을 수행했습니다. 또한 인간의 힌트 없이 반복적인 최적화 루프를 통해 최적의 시간 복잡도(O(n^2 r + nr^2))를 가진 알고리즘을 자율적으로 도출하는 등, 단순한 패턴 매칭을 넘어선 복합적 추론 능력을 증명했습니다. 동시에 신뢰도가 낮은 결과는 출력하지 않고 제한 시간 내에 탐색을 종료함으로써 실제 학술 연구 보조 도구로서의 실용성과 연산 효율성 관리를 보여주었습니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!