2603.00575v1 Feb 28, 2026 cs.AI

SWE-Hub: 확장 가능하고 실행 가능한 소프트웨어 공학 작업을 위한 통합 생산 시스템

SWE-Hub: A Unified Production System for Scalable, Executable Software Engineering Tasks

Hao-Dong Zhao
Hao-Dong Zhao
Citations: 965
h-index: 3
Shupeng Li
Shupeng Li
Citations: 12
h-index: 2
Daxiang Dong
Daxiang Dong
Citations: 18
h-index: 2
Ruijie Xu
Ruijie Xu
Citations: 205
h-index: 3
Zimo Chen
Zimo Chen
Citations: 4
h-index: 1
Zhe Zhou
Zhe Zhou
Citations: 24
h-index: 2
Lun Tian
Lun Tian
Citations: 0
h-index: 0
Hengjia Xiao
Hengjia Xiao
Citations: 37
h-index: 1
Tianshun Zhu
Tianshun Zhu
Citations: 0
h-index: 0
Longkun Hao
Longkun Hao
Citations: 2
h-index: 1
Jianmin Wu
Jianmin Wu
Citations: 4
h-index: 2
Yuchen Zeng
Yuchen Zeng
Citations: 48
h-index: 3
Liwei Zheng
Liwei Zheng
Citations: 9
h-index: 2
Yuxuan Li
Yuxuan Li
Citations: 11
h-index: 2

소프트웨어 공학 에이전트의 발전은 훈련 및 평가를 위한 실행 가능하고, 확장 가능하며, 현실적인 데이터의 부족으로 인해 점점 더 제약받고 있습니다. 이러한 부족 현상은 기존 파이프라인의 세 가지 근본적인 문제점에서 비롯됩니다. 첫째, 환경이 불안정하고 다양한 언어 간에 재현하기 어렵습니다. 둘째, 시스템 수준의 현실적인 버그를 대규모로 합성하는 데에는 막대한 계산 비용이 필요합니다. 셋째, 기존 데이터는 주로 단기적인 수정 작업으로 구성되어 있으며, 아키텍처 일관성과 같은 장기적인 역량을 포착하지 못합니다. 본 논문에서는 데이터 팩토리 추상화를 구현하여 환경 자동화, 확장 가능한 합성, 그리고 다양한 작업 생성을 일관된 생산 스택으로 통합하는 엔드 투 엔드 시스템인 **SWE-Hub**를 소개합니다. **SWE-Hub**의 핵심은 **Env Agent**로, 원본 저장소 스냅샷을 자동으로 변환하여 표준화된 인터페이스를 갖는 재현 가능한, 다국어 컨테이너 환경을 구축함으로써 공유 실행 기반을 제공합니다. 이 기반 위에서 **SWE-Scale** 엔진은 높은 처리량을 가진 데이터 생성 요구 사항을 충족시키기 위해, 크로스-언어 코드 분석과 클러스터 규모의 검증을 결합하여 방대한 양의 로컬화된 버그 수정 사례를 합성합니다. **Bug Agent**는 시스템 수준의 회귀를 합성하고, 모듈 간 의존성을 포함하는 고정밀 수정 작업을 생성하며, 사용자와 유사한 이슈 보고서를 함께 제공하여 관찰 가능한 증상을 설명합니다. 마지막으로, **SWE-Architect**는 자연어 요구 사항을 저장소 규모의 리포지토리 생성 작업으로 변환하여 작업 범위를 수정에서 창작으로 확장합니다. 이러한 구성 요소들을 통합함으로써, SWE-Hub는 소프트웨어 공학 라이프사이클 전체에 걸쳐 지속적으로 실행 가능한 작업을 제공할 수 있는 통합 생산 파이프라인을 구축합니다.

Original Abstract

Progress in software-engineering agents is increasingly constrained by the scarcity of executable, scalable, and realistic data for training and evaluation. This scarcity stems from three fundamental challenges in existing pipelines: environments are brittle and difficult to reproduce across languages; synthesizing realistic, system-level bugs at scale is computationally expensive; and existing data predominantly consists of short-horizon repairs, failing to capture long-horizon competencies like architectural consistency. We introduce \textbf{SWE-Hub}, an end-to-end system that operationalizes the data factory abstraction by unifying environment automation, scalable synthesis, and diverse task generation into a coherent production stack. At its foundation, the \textbf{Env Agent} establishes a shared execution substrate by automatically converting raw repository snapshots into reproducible, multi-language container environments with standardized interfaces. Built upon this substrate, \textbf{SWE-Scale} engine addresses the need for high-throughput generation, combining cross-language code analysis with cluster-scale validation to synthesize massive volumes of localized bug-fix instances. \textbf{Bug Agent} generates high-fidelity repair tasks by synthesizing system-level regressions involving cross-module dependencies, paired with user-like issue reports that describe observable symptoms rather than root causes. Finally, \textbf{SWE-Architect} expands the task scope from repair to creation by translating natural-language requirements into repository-scale build-a-repo tasks. By integrating these components, SWE-Hub establishes a unified production pipeline capable of continuously delivering executable tasks across the entire software engineering lifecycle.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!