2602.02619v2 Feb 02, 2026 cs.LG

daVinci-Agency: 장기적인 에이전트 시스템 학습을 위한 데이터 효율적인 접근 방식

daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

Keyu Li
Keyu Li
Citations: 19
h-index: 3
Junhao Shi
Junhao Shi
Citations: 4
h-index: 1
Yang Xiao
Yang Xiao
Citations: 2,602
h-index: 6
Mohan Jiang
Mohan Jiang
Citations: 14
h-index: 3
Weiye Si
Weiye Si
Citations: 17
h-index: 3
Wenjie Li
Wenjie Li
Citations: 4
h-index: 1
Dequan Wang
Dequan Wang
Citations: 4
h-index: 1
Ji Zeng
Ji Zeng
Citations: 16
h-index: 3
Pengfei Liu
Pengfei Liu
Citations: 230
h-index: 5
Dayuan Fu
Dayuan Fu
Citations: 183
h-index: 4
Xuefeng Li
Xuefeng Li
Citations: 723
h-index: 11

대규모 언어 모델(LLM)은 단기적인 작업에서는 뛰어난 성능을 보이지만, 장기적인 에이전트 워크플로우로 확장하는 것은 여전히 어려운 과제입니다. 핵심적인 문제는 장기적인 의존 구조와 단계 간의 진화적 역학을 포착하는 충분한 학습 데이터의 부족에 있습니다. 기존의 데이터 생성 방법은 모델 분포에 의해 제한된 단일 특징 시나리오에만 적용되거나, 엄청난 수준의 인적 어노테이션 비용을 발생시켜 확장 가능하고 고품질의 감독 신호를 제공하지 못합니다. 우리는 실제 소프트웨어 진화를 통해 데이터 생성 방식을 재정의하여 이 문제를 해결합니다. 우리의 핵심 아이디어는 Pull Request(PR) 시퀀스가 장기적인 학습을 위한 감독 신호를 자연스럽게 담고 있다는 것입니다. PR 시퀀스는 복잡한 목표를 검증 가능한 단위로 분해하고, 반복적인 과정에서 기능적 일관성을 유지하며, 버그 수정 이력을 통해 실제적인 개선 패턴을 포함합니다. 이를 바탕으로, 우리는 체인 형태의 PR 시퀀스에서 체계적으로 구조화된 감독 신호를 추출하는 daVinci-Agency를 제안합니다. daVinci-Agency는 세 가지 핵심 메커니즘을 통해 작동합니다: (1) 지속적인 커밋을 통한 점진적인 작업 분해, (2) 통일된 기능적 목표를 통한 장기적인 일관성 유지, (3) 실제 버그 수정 경로를 통한 검증 가능한 개선. 기존의 인공적인 시퀀스가 각 단계를 독립적으로 취급하는 것과 달리, daVinci-Agency의 PR 기반 구조는 지속적인 목표 지향적인 행동을 학습하는 데 필수적인 인과적 의존성과 반복적인 개선을 자연스럽게 유지하며, 프로젝트 수준의 전체적인 작업 모델링과 효과적으로 연계됩니다. 결과적으로 생성된 시퀀스는 평균 85,000개의 토큰과 116개의 도구 호출을 포함하며, 놀랍도록 데이터 효율적입니다. GLM-4.6 모델을 239개의 daVinci-Agency 샘플로 미세 조정함으로써 다양한 벤치마크에서 광범위한 성능 향상을 얻었으며, 특히 Toolathlon에서 47%의 상대적인 성능 향상을 달성했습니다. 벤치마크 성능 외에도, 우리의 분석은 다음과 같은 사실을 확인했습니다...

Original Abstract

While Large Language Models (LLMs) excel at short-term tasks, scaling them to long-horizon agentic workflows remains challenging. The core bottleneck lies in the scarcity of training data that captures authentic long-dependency structures and cross-stage evolutionary dynamics--existing synthesis methods either confine to single-feature scenarios constrained by model distribution, or incur prohibitive human annotation costs, failing to provide scalable, high-quality supervision. We address this by reconceptualizing data synthesis through the lens of real-world software evolution. Our key insight: Pull Request (PR) sequences naturally embody the supervision signals for long-horizon learning. They decompose complex objectives into verifiable submission units, maintain functional coherence across iterations, and encode authentic refinement patterns through bug-fix histories. Building on this, we propose daVinci-Agency, which systematically mines structured supervision from chain-of-PRs through three interlocking mechanisms: (1) progressive task decomposition via continuous commits, (2) long-term consistency enforcement through unified functional objectives, and (3) verifiable refinement from authentic bug-fix trajectories. Unlike synthetic trajectories that treat each step independently, daVinci-Agency's PR-grounded structure inherently preserves the causal dependencies and iterative refinements essential for teaching persistent goal-directed behavior and enables natural alignment with project-level, full-cycle task modeling. The resulting trajectories are substantial--averaging 85k tokens and 116 tool calls--yet remarkably data-efficient: fine-tuning GLM-4.6 on 239 daVinci-Agency samples yields broad improvements across benchmarks, notably achieving a 47% relative gain on Toolathlon. Beyond benchmark performance, our analysis confirms...

0 Citations
0 Influential
5.5 Altmetric
27.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!