원자적 기술을 활용한 코딩 에이전트 확장
Scaling Coding Agents via Atomic Skills
현재의 LLM 기반 코딩 에이전트는 주로 복합 벤치마크(예: 버그 수정)를 통해 학습되는데, 이는 종종 작업별 과적합과 제한적인 일반화로 이어집니다. 이를 해결하기 위해, 우리는 작업 수준의 최적화에서 벗어나 기본 기술 숙달에 초점을 맞춘 새로운 확장 패러다임을 제안합니다. 먼저, 코드 위치 찾기, 코드 편집, 단위 테스트 생성, 문제 재현, 코드 검토와 같이 복잡한 소프트웨어 엔지니어링 작업의 기반이 되는 다섯 가지 기본적인 원자적 기술을 정의합니다. 복합 코딩 작업과 비교했을 때, 이러한 원자적 기술은 더 일반화 가능하고 조합 가능합니다. 그런 다음, 우리는 원자적 기술에 대한 공동 강화 학습(RL)을 수행하여 코딩 에이전트를 확장합니다. 이러한 방식으로, 원자적 기술은 서로의 부정적인 간섭이나 균형을 깨뜨리지 않고 지속적으로 개선됩니다. 주목할 점은, 이러한 원자적 기술의 개선 사항이 버그 수정, 코드 리팩토링, 머신 러닝 엔지니어링, 코드 보안과 같은 다른, 이전에 보지 못한 복합 코딩 작업에도 잘 일반화된다는 것입니다. 이러한 관찰은 원자적 기술을 사용하여 학습하는 코딩 에이전트에 대한 새로운 확장 패러다임을 제시합니다. 광범위한 실험을 통해 제안하는 패러다임의 효과성을 입증했습니다. 특히, 우리의 공동 강화 학습은 5개의 원자적 기술과 5개의 복합 작업에서 평균 성능을 18.7% 향상시켰습니다.
Current LLM coding agents are predominantly trained on composite benchmarks (e.g., bug fixing), which often leads to task-specific overfitting and limited generalization. To address this, we propose a novel scaling paradigm that shifts the focus from task-level optimization to atomic skill mastery. We first formalize five fundamental atomic skills, code localization, code editing, unit-test generation, issue reproduction, and code review, that serve as the basis vectors for complex software engineering tasks. Compared with composite coding tasks, these atomic skills are more generalizable and composable. Then, we scale coding agents by performing joint RL over atomic skills. In this manner, atomic skills are consistently improved without negative interference or trade-offs between them. Notably, we observe that improvements in these atomic skills generalize well to other unseen composite coding tasks, such as bug-fixing, code refactoring, machine learning engineering, and code security. The observation motivates a new scaling paradigm for coding agents by training with atomic skills. Extensive experiments demonstrate the effectiveness of our proposed paradigm. Notably, our joint RL improves average performance by 18.7% on 5 atomic skills and 5 composite tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.