FT-Dojo: 언어 에이전트를 활용한 자율적 LLM 미세 조정 연구
FT-Dojo: Towards Autonomous LLM Fine-Tuning with Language Agents
특정 분야에 대한 대규모 언어 모델(LLM)의 미세 조정은 여전히 많은 노동력과 비용이 필요하며, 해당 분야 전문가가 데이터를 선별하고, 학습 설정을 구성하며, 모델의 동작을 반복적으로 분석해야 합니다. 자율적 머신러닝에 대한 관심이 높아지고 있지만, 기존 연구에서는 에이전트를 활용한 LLM 미세 조정의 전체 과정을 다룬 사례가 없었습니다. LLM 기반 에이전트가 이 복잡한 과정을 자동화할 수 있을까요? 본 연구에서는 이 문제를 중요한 과제로 정의하고, 다양한 데이터 소스로부터 데이터를 수집하고, 복잡한 도구를 사용하여 데이터를 처리하며, 학습 파이프라인을 구축하고, 빠르게 증가하는 로그 데이터를 기반으로 평가 결과를 통해 접근 방식을 반복적으로 개선하는 등 광범위한 탐색 공간을 에이전트가 탐색해야 하는 상황을 고려합니다. 이러한 질문을 연구하기 위해, 5개의 분야에 걸쳐 13개의 작업으로 구성된 인터랙티브 환경인 FT-Dojo를 소개합니다. 또한, FT-Agent라는 자율 시스템을 개발하여, 평가 기반 피드백을 활용하여 인간 전문가처럼 오류를 진단하고 미세 조정 전략을 반복적으로 개선합니다. FT-Dojo 환경에서의 실험 결과, 특정 목적에 맞게 설계된 미세 조정 에이전트가 범용 에이전트보다 훨씬 우수한 성능을 보이며, FT-Agent는 5개 분야의 13개 작업 중 10개 작업에서 가장 뛰어난 성능을 달성했습니다. 추가적인 실험을 통해, 제안하는 방법이 30억 개의 파라미터를 가진 모델에도 효과적으로 적용될 수 있으며, 데이터 확장과 모델 성능 간의 상관관계, 그리고 모델 구조에 대한 민감도에 대한 추가적인 정보를 제공합니다. 사례 분석 결과, 에이전트는 과거 경험으로부터 학습하여 오류에서 회복할 수 있지만, 인과 관계 추론에 있어 근본적인 한계가 있음을 보여주며, 이는 자율적 LLM 미세 조정의 잠재력과 현재의 한계를 동시에 보여줍니다.
Fine-tuning large language models for vertical domains remains a labor-intensive and expensive process, requiring domain experts to curate data, configure training, and iteratively diagnose model behavior. Despite growing interest in autonomous machine learning, no prior work has tackled end-to-end LLM fine-tuning with agents. Can LLM-based agents automate this complete process? We frame this as a substantially open problem: agents must navigate an open-ended search space spanning data curation from diverse data sources, processing with complex tools, building a training pipeline, and iteratively refining their approach based on evaluation outcomes in rapidly growing logs--an overall scenario far more intricate than existing benchmarks. To study this question, we introduce FT-Dojo, an interactive environment comprising 13 tasks across 5 domains. We further develop FT-Agent, an autonomous system that mirrors human experts by leveraging evaluation-driven feedback to iteratively diagnose failures and refine fine-tuning strategies. Experiments on FT-Dojo demonstrate that purpose-built fine-tuning agents significantly outperform general-purpose alternatives, with FT-Agent achieving the best performance on 10 out of 13 tasks across all five domains. Ablations show that the approach generalizes effectively to 3B models, with additional insights on data scaling trade-offs and backbone sensitivity. Case analyses reveal that agents can recover from failures through cumulative learning from historical experience, while also exposing fundamental limitations in causal reasoning--highlighting both the promise and current boundaries of autonomous LLM fine-tuning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.