2601.16175v2 Jan 22, 2026 cs.LG

테스트 시간에 학습하여 새로운 발견을 추구하는 방법

Learning to Discover at Test Time

Jan Kautz
Jan Kautz
Citations: 19
h-index: 2
Federico Bianchi
Federico Bianchi
Citations: 438
h-index: 9
James Zou
James Zou
Citations: 185
h-index: 5
Carlos Guestrin
Carlos Guestrin
Citations: 2,700
h-index: 21
Yejin Choi
Yejin Choi
Citations: 42
h-index: 3
Xiaolong Wang
Xiaolong Wang
Citations: 330
h-index: 5
Mert Yuksekgonul
Mert Yuksekgonul
Stanford University
Citations: 4,252
h-index: 17
Daniel Koceja
Daniel Koceja
Citations: 100
h-index: 3
Xinhao Li
Xinhao Li
UC San Diego
Citations: 307
h-index: 6
Jed McCaleb
Jed McCaleb
Citations: 164
h-index: 4
Yu Sun
Yu Sun
Citations: 329
h-index: 5

인공지능을 활용하여 과학적 문제에 대한 최첨단 솔루션을 어떻게 발견할 수 있을까요? AlphaEvolve와 같은 기존의 테스트 시간 스케일링 연구는 고정된 LLM에 프롬프트를 제공하여 탐색을 수행합니다. 저희는 테스트 시간에 강화 학습을 수행하여 LLM이 계속 학습하도록 합니다. 하지만 이제는 테스트 문제에 특화된 경험을 활용하게 됩니다. 이러한 형태의 지속적인 학습은 매우 특별한데, 그 목표는 평균적으로 많은 좋은 솔루션을 찾는 것이 아니라, 하나의 뛰어난 솔루션을 생성하고, 다른 문제에 일반화하는 것이 아니라, 특정 문제를 해결하는 것입니다. 따라서 저희의 학습 목표와 탐색 알고리즘은 가장 유망한 솔루션을 우선적으로 선택하도록 설계되었습니다. 저희는 이 방법을 '테스트 시간 학습을 통한 발견 (TTT-Discover)'이라고 부릅니다. 기존 연구를 따라, 저희는 연속적인 보상을 사용하는 문제에 집중했습니다. 저희는 시도한 모든 문제에 대한 결과를 보고합니다. 여기에는 수학, GPU 커널 엔지니어링, 알고리즘 설계 및 생물학 분야가 포함됩니다. TTT-Discover는 거의 모든 분야에서 새로운 최고 성능을 달성했습니다. (i) Erdős의 최소 중복 문제 및 자기 상관 부등식, (ii) GPUMode 커널 경쟁 (기존 기술보다 최대 2배 빠른 성능), (iii) 과거 AtCoder 알고리즘 대회, 및 (iv) 단일 세포 분석에서의 노이즈 제거 문제 등이 있습니다. 저희의 솔루션은 전문가 또는 주최 측의 검토를 받았습니다. 저희의 모든 결과는 공개 모델인 OpenAI gpt-oss-120b를 사용하여 얻었으며, 공개적으로 제공되는 코드를 통해 재현 가능합니다. 이는 이전의 최고 성능 결과가 폐쇄형 최첨단 모델을 필요로 했던 것과 대조됩니다. 저희의 테스트 시간 학습은 Thinking Machines의 API인 Tinker를 사용하여 수행되었으며, 문제당 비용은 단 몇백 달러에 불과합니다.

Original Abstract

How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform reinforcement learning at test time, so the LLM can continue to train, but now with experience specific to the test problem. This form of continual learning is quite special, because its goal is to produce one great solution rather than many good ones on average, and to solve this very problem rather than generalize to other problems. Therefore, our learning objective and search subroutine are designed to prioritize the most promising solutions. We call this method Test-Time Training to Discover (TTT-Discover). Following prior work, we focus on problems with continuous rewards. We report results for every problem we attempted, across mathematics, GPU kernel engineering, algorithm design, and biology. TTT-Discover sets the new state of the art in almost all of them: (i) Erdős' minimum overlap problem and an autocorrelation inequality; (ii) a GPUMode kernel competition (up to $2\times$ faster than prior art); (iii) past AtCoder algorithm competitions; and (iv) denoising problem in single-cell analysis. Our solutions are reviewed by experts or the organizers. All our results are achieved with an open model, OpenAI gpt-oss-120b, and can be reproduced with our publicly available code, in contrast to previous best results that required closed frontier models. Our test-time training runs are performed using Tinker, an API by Thinking Machines, with a cost of only a few hundred dollars per problem.

19 Citations
1 Influential
10.5 Altmetric
73.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!