SWE-Next: 에이전트를 위한 확장 가능한 실제 소프트웨어 엔지니어링 작업
SWE-Next: Scalable Real-World Software Engineering Tasks for Agents
실행 가능한 소프트웨어 엔지니어링 데이터는 SWE 에이전트 훈련에 매우 유용하지만, 확장성 확보에는 두 가지 어려움이 있습니다. 첫째, 실제 저장소 변경 사항 중 검증 가능하고 유의미한 작업 인스턴스를 생성하는 것은 극히 일부에 불과합니다. 둘째, 저장소별 환경을 무분별하게 구축하면 시스템 비용이 급격히 증가합니다. 본 논문에서는 확장 가능한 SWE 작업 및 경로 수집을 위한 실행 기반 프레임워크인 SWE-Next를 소개합니다. 데이터 측면에서 SWE-Next는 실제 병합된 풀 리퀘스트를 분석하고, 후보 기본/병합 커밋 쌍을 실행하며, 회귀 없이 엄격한 테스트 개선을 보이는 경우에만 해당 인스턴스를 유지합니다. 또한, 수집된 경로가 추론적인 것이 아닌 증거 기반이 되도록 엄격한 제출 기준을 적용합니다. 시스템 측면에서 SWE-Next는 재사용 가능한 저장소 쿼터 프로필을 도입하여, 시간적으로 근접한 커밋 간에 동일한 환경을 재사용하면서도 각 작업 실행을 분리하고 재현 가능하게 만듭니다. SWE-Next는 30시간과 639GB의 환경 저장 공간을 사용하여 3,971개의 시드 저장소와 실제 병합된 풀 리퀘스트에서 추출한 102,582개의 후보 커밋 쌍을 처리하여 2,308개의 자체 검증 인스턴스 데이터셋을 구축했습니다. 실험 결과, SWE-Next는 더 적거나 동일한 수의 훈련 경로를 사용하여 다운스트림 pass@1 성능을 향상시켰습니다. 이는 SWE-Next의 성능 향상이 더 강력한 경로 생성기가 아닌, 실행 기반의 고품질 지도 학습 및 효율적인 데이터 수집 덕분임을 나타냅니다.
Executable software engineering data is valuable for training SWE agents, but scaling it remains difficult for two reasons: only a small fraction of real repository changes yield verifiable, high-signal task instances, and naively building repository-specific environments quickly becomes the dominant systems cost. We present SWE-Next, an execution-grounded framework for scalable SWE task and trajectory collection. On the data side, SWE-Next mines real merged pull requests, executes candidate base/merged commit pairs, and retains only those that produce strict test improvements without regressions, yielding self-verifying instances. It also applies strict submission gating so that collected trajectories remain evidence-driven rather than speculative. On the systems side, SWE-Next introduces reusable repo-quarter profiles, which reuse the same environment across nearby commits in time while keeping each task run separate and reproducible. Using only 30 hours and 639GB of environment storage, SWE-Next processes 3,971 seed repositories and 102,582 candidate commit pairs mined from real merged PRs to construct a dataset of 2,308 self-verifying instances. Experiments show that SWE-Next improves downstream pass@1 with fewer or comparable training trajectories, indicating that its gains come not from a stronger trajectory generator, but from higher-signal execution-grounded supervision and more efficient data collection.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.