2605.05724v1 May 07, 2026 cs.MA

전문 에이전트를 활용한 자동 연구: 효과적이고 비자명한 학습 레시피 개발

Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

Ji Zeng
Ji Zeng
Citations: 35
h-index: 4
Xiaochuan Li
Xiaochuan Li
Citations: 1,008
h-index: 5
Hao Kang
Hao Kang
Citations: 51
h-index: 4
Chenyan Xiong
Chenyan Xiong
Citations: 75
h-index: 6
Jingjie Ning
Jingjie Ning
Citations: 55
h-index: 2

본 연구에서는 외부 측정에 의해 구동되는 폐쇄형 경험적 루프를 활용한 자동 연구를 다룹니다. 제출된 각 실험은 가설, 실행 가능한 코드 수정, 평가자가 소유한 결과, 그리고 다음 제안을 형성하는 피드백을 포함합니다. 결과물은 생성된 논문이나 단일 모델 체크포인트가 아니라, 제안, 코드 변경 사항, 실험, 점수 및 실패 레이블의 감사 가능한 실행 경로입니다. 본 연구에서는 전문 에이전트를 활용하여 레시피 탐색 공간을 분할하고, 실험 과정에서 얻은 정보를 공유합니다. 핵심적인 경험적 결과는 다음과 같습니다. 에이전트는 lineage 피드백을 통해 평가 결과, 즉 충돌, 예산 초과, 크기 실패 및 정확도 기준 미달 등을 프로그램 수준의 레시피 수정으로 연결하며, 일회성 제안으로 그치지 않습니다. 초기 설정 및 실행 후 1,197회의 주요 실험과 600회의 Parameter Golf 제어 실험을 진행한 결과, 인간은 제안을 선택하거나, 레시피를 편집하거나, 점수를 수정하거나, 실패한 실험을 수정하는 등의 개입을 하지 않았습니다. 세 가지 주요 실험에서, 동일한 제출 실험 루프는 Parameter Golf의 검증 성능을 0.81% 향상시키고, NanoChat-D12 CORE 성능을 38.7% 향상시키며, CIFAR-10 Airbench96의 실행 시간을 4.59% 단축시켰습니다. 각 작업은 자체적인 외부 평가 도구와 합법성 검사를 통해 측정되었습니다. 본 연구의 결과는 157개의 주요 실험 제출물에 대한 엄격한 아키텍처-도메인 감사 및 NanoChat의 어텐션 커널 경로 변경과 같은 프로그램 재작성 내용을 포함합니다. 이러한 범위 내에서, 본 루프는 코드를 자동으로 작성하고, 실험을 제출하고, 피드백을 흡수하며, 각 환경 내에서 알려진 기술을 적용하고 결합하며, 공개된 초기 레시피를 개선합니다.

Original Abstract

We study auto research as a closed empirical loop driven by external measurement. Each submitted trial carries a hypothesis, an executable code edit, an evaluator-owned outcome, and feedback that shapes the next proposal. The output is not a generated paper or a single model checkpoint, but an auditable trajectory of proposals, code diffs, experiments, scores, and failure labels. We instantiate this loop with specialist agents that partition recipe surfaces and share measured lineage across trials. The central empirical finding is that lineage feedback lets agents turn evaluator outcomes, including crashes, budget overruns, size failures, and accuracy-gate misses, into later program-level recipe edits rather than one-shot suggestions. Across 1,197 headline-run trials plus 600 Parameter Golf control trials after one-time setup and launch, humans did not choose proposals, edit recipes, override scores, or repair failed trials during the search. In the three headline runs, the same submitted-trial loop reduces Parameter Golf validation bpb by $0.81\%$, raises NanoChat-D12 CORE by $38.7\%$, and reduces CIFAR-10 Airbench96 wallclock by $4.59\%$, with each task measured by its own external evaluator and legality checks. The trace includes a strict architecture-domain audit of 157 headline-run submissions and program rewrites such as a NanoChat attention-kernel path change. Within this scope the loop autonomously writes code, submits experiments, absorbs feedback, applies and combines known techniques inside each environment, and improves public starting recipes.

1 Citations
0 Influential
3 Altmetric
16.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!