Aletheia, FirstProof를 자율적으로 해결하다
Aletheia tackles FirstProof autonomously
우리는 제1회 FirstProof 챌린지에서 Gemini 3 Deep Think로 구동되는 수학 연구 에이전트인 Aletheia(Feng et al., 2026b)의 성능을 보고한다. 챌린지의 허용된 제한 시간 내에, 다수 전문가의 평가에 따르면 Aletheia는 10문제 중 6문제(2, 5, 7, 8, 9, 10)를 자율적으로 해결했다. 단, 8번 문제에 한해서만 전문가들의 의견이 만장일치하지 않았음을 밝혀둔다. 완전한 투명성을 기하기 위해 우리는 FirstProof에 대한 우리의 해석을 설명하고 평가 및 실험에 대한 세부 사항을 공개한다. 원본 프롬프트와 출력 결과는 https://github.com/google-deepmind/superhuman/tree/main/aletheia 에서 확인할 수 있다.
We report the performance of Aletheia (Feng et al., 2026b), a mathematics research agent powered by Gemini 3 Deep Think, on the inaugural FirstProof challenge. Within the allowed timeframe of the challenge, Aletheia autonomously solved 6 problems (2, 5, 7, 8, 9, 10) out of 10 according to majority expert assessments; we note that experts were not unanimous on Problem 8 (only). For full transparency, we explain our interpretation of FirstProof and disclose details about our experiments as well as our evaluation. Raw prompts and outputs are available at https://github.com/google-deepmind/superhuman/tree/main/aletheia.
AI Analysis
Korean Summary
Key Innovations
- 인간 전문가의 개입(Human-in-the-loop) 없이 증명 생성부터 LaTeX 형식화까지 수행하는 완전 자율형 AI 수학 연구 파이프라인
- 학술지 동료 평가(Peer Review) 과정을 모사하여 논리적 비약과 엄밀성을 스스로 평가하는 검증 및 추출 프롬프트(Verification and extraction prompt) 도입
- 환각(Hallucination)을 줄이고 신뢰성을 확보하기 위해 답을 찾지 못할 경우 '해결책 없음(No solution found)'을 반환하는 자율적 필터링 메커니즘
- 문제의 난이도와 복잡성에 비례하여 에이전트의 추론 시간 연산(Inference-time compute)을 동적으로 대폭 확장하는 구조
Learning & Inference Impact
이 연구는 AI의 성능이 학습(Training) 단계를 넘어 추론(Inference) 단계의 연산량 확장(Test-time compute scaling)을 통해 연구 수준의 수학적 발견으로 이어질 수 있음을 강력하게 보여줍니다. Aletheia는 생성기(Generator)와 검증기(Verifier) 서브에이전트 간의 반복적인 상호작용을 거치며, 해결이 어려운 문제(예: 문제 7)의 경우 기존보다 한 자릿수 이상 큰 비용의 추론 연산을 수행했습니다. 또한 인간의 힌트 없이 반복적인 최적화 루프를 통해 최적의 시간 복잡도(O(n^2 r + nr^2))를 가진 알고리즘을 자율적으로 도출하는 등, 단순한 패턴 매칭을 넘어선 복합적 추론 능력을 증명했습니다. 동시에 신뢰도가 낮은 결과는 출력하지 않고 제한 시간 내에 탐색을 종료함으로써 실제 학술 연구 보조 도구로서의 실용성과 연산 효율성 관리를 보여주었습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.