2602.02361v1 Feb 02, 2026 cs.SE

SWE-Universe: GitHub Pull Request 기반의 실세계 소프트웨어 공학 검증 환경을 수백만 개 규모로 확장

SWE-Universe: Scale Real-World Verifiable Environments to Millions

Zeyu Cui
Zeyu Cui
Citations: 13,153
h-index: 11
Jingren Zhou
Jingren Zhou
Citations: 20,101
h-index: 27
Binyuan Hui
Binyuan Hui
Citations: 9,064
h-index: 12
Dayiheng Liu
Dayiheng Liu
Citations: 16,165
h-index: 22
Jiaxin Yang
Jiaxin Yang
Citations: 6,899
h-index: 7
Mouxiang Chen
Mouxiang Chen
Citations: 18
h-index: 2
Lei Zhang
Lei Zhang
Citations: 19
h-index: 3
Yunlong Feng
Yunlong Feng
Citations: 116
h-index: 3
Xuwu Wang
Xuwu Wang
Citations: 292
h-index: 6
Wenting Zhao
Wenting Zhao
Citations: 1
h-index: 1
Ruisheng Cao
Ruisheng Cao
Citations: 56
h-index: 3
Jiawei Chen
Jiawei Chen
Citations: 14
h-index: 2
Mingze Li
Mingze Li
Citations: 1
h-index: 1
Zeyao Ma
Zeyao Ma
Citations: 7
h-index: 1
H. Ge
H. Ge
Citations: 61
h-index: 3
Zongmeng Zhang
Zongmeng Zhang
Citations: 2
h-index: 1
Jianling Sun
Jianling Sun
Citations: 154
h-index: 6
Junyang Lin
Junyang Lin
Citations: 5,952
h-index: 11

본 연구에서는 GitHub pull request(PR)로부터 실세계 소프트웨어 공학(SWE) 검증 환경을 자동으로 구축하는 확장 가능하고 효율적인 프레임워크인 SWE-Universe를 제안합니다. 자동 빌드 과정에서 발생하는 낮은 생산성, 취약한 검증 도구, 과도한 비용과 같은 문제점을 해결하기 위해, 저희 프레임워크는 효율적으로 학습된 커스텀 모델을 기반으로 하는 빌딩 에이전트를 사용합니다. 이 에이전트는 반복적인 자체 검증과 실시간 해킹 탐지 기능을 통해 고품질의 검증 가능한 작업을 안정적으로 생성합니다. 이러한 방법을 통해, 저희는 실세계 다국어 SWE 환경의 수를 807,693개 규모로 확장했습니다. 저희는 대규모 에이전트 기반 중간 학습 및 강화 학습을 통해 이러한 환경의 뛰어난 가치를 입증했습니다. 또한, 이 기술을 Qwen3-Max-Thinking에 적용하여 SWE-Bench Verified에서 75.3%의 높은 점수를 달성했습니다. 본 연구는 차세대 코딩 에이전트 개발을 위한 중요한 자원과 강력한 방법론을 제공합니다.

Original Abstract

We propose SWE-Universe, a scalable and efficient framework for automatically constructing real-world software engineering (SWE) verifiable environments from GitHub pull requests (PRs). To overcome the prevalent challenges of automatic building, such as low production yield, weak verifiers, and prohibitive cost, our framework utilizes a building agent powered by an efficient custom-trained model. This agent employs iterative self-verification and in-loop hacking detection to ensure the reliable generation of high-fidelity, verifiable tasks. Using this method, we scale the number of real-world multilingual SWE environments to a million scale (807,693). We demonstrate the profound value of our environments through large-scale agentic mid-training and reinforcement learning. Finally, we applied this technique to Qwen3-Max-Thinking and achieved a score of 75.3% on SWE-Bench Verified. Our work provides both a critical resource and a robust methodology to advance the next generation of coding agents.

1 Citations
0 Influential
13.5 Altmetric
68.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!