2604.14116v1 Apr 15, 2026 cs.AI

TREX: 에이전트 기반 트리 탐색을 통한 LLM 미세 조정 자동화

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Yicheng Chen
Yicheng Chen
Citations: 77
h-index: 3
Zerun Ma
Zerun Ma
Citations: 463
h-index: 5
Xinchen Xie
Xinchen Xie
Citations: 29
h-index: 1
Kai Chen
Kai Chen
Citations: 26
h-index: 3
Guoqiang Wang
Guoqiang Wang
Citations: 5
h-index: 1
Wenran Liu
Wenran Liu
Citations: 268
h-index: 4
Bowen Li
Bowen Li
Citations: 1
h-index: 1
Yining Li
Yining Li
Citations: 144
h-index: 1
He Du
He Du
Citations: 154
h-index: 4
Yanan Sun
Yanan Sun
Citations: 97
h-index: 3

대규모 언어 모델(LLM)은 AI 연구 에이전트가 개별적인 과학적 작업을 수행하는 데 활용되어 왔지만, LLM 학습과 같은 복잡하고 실제적인 워크플로우를 자동화하는 것은 여전히 중요한 과제입니다. 본 논문에서는 LLM 학습 전체 라이프사이클을 자동화하는 다중 에이전트 시스템인 TREX를 소개합니다. 연구자(Researcher)와 실행자(Executor)라는 두 가지 핵심 모듈 간의 협력을 조정함으로써, TREX는 요구 사항 분석, 개방형 도메인 문헌 및 데이터 연구, 학습 전략 수립, 데이터 레시피 준비, 모델 학습 및 평가를 원활하게 수행합니다. 다중 라운드로 구성된 실험 과정을 탐색 트리로 모델링하여, 시스템은 효율적인 탐색 경로 계획, 과거 결과 재활용, 그리고 반복적인 실험을 통해 얻은 고수준의 통찰력을 추출할 수 있습니다. 자동화된 LLM 학습 능력을 평가하기 위해, 우리는 10개의 실제 시나리오에서 파생된 작업으로 구성된 벤치마크인 FT-Bench를 구축했습니다. 실험 결과는 TREX 에이전트가 대상 작업에서 모델 성능을 지속적으로 최적화한다는 것을 보여줍니다.

Original Abstract

While Large Language Models (LLMs) have empowered AI research agents to perform isolated scientific tasks, automating complex, real-world workflows, such as LLM training, remains a significant challenge. In this paper, we introduce TREX, a multi-agent system that automates the entire LLM training life-cycle. By orchestrating collaboration between two core modules-the Researcher and the Executor-the system seamlessly performs requirement analysis, open-domain literature and data research, formulation of training strategies, preparation of data recipes, and model training and evaluation. The multi-round experimental process is modeled as a search tree, enabling the system to efficiently plan exploration paths, reuse historical results, and distill high-level insights from iterative trials. To evaluate the capability of automated LLM training, we construct FT-Bench, a benchmark comprising 10 tasks derived from real-world scenarios, ranging from optimizing fundamental model capabilities to enhancing performance on domain-specific tasks. Experimental results demonstrate that the TREX agent consistently optimizes model performance on target tasks.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!