2603.27333v1 Mar 28, 2026 cs.SE

ComBench: 컴파일 오류 수정 작업을 위한 레포지토리 수준의 실제 환경 벤치마크

ComBench: A Repo-level Real-world Benchmark for Compilation Error Repair

Jia Li
Jia Li
Citations: 11
h-index: 2
Yuxin Su
Yuxin Su
Citations: 1,995
h-index: 22
Michael R. Lyu
Michael R. Lyu
Citations: 835
h-index: 17
Zeyang Zhuang
Zeyang Zhuang
Citations: 26
h-index: 1
Zhuangbin Chen
Zhuangbin Chen
Citations: 1,964
h-index: 21
Wei Meng
Wei Meng
Citations: 71
h-index: 6

컴파일 오류는 소프트웨어 개발에서 널리 퍼져 있고 중요한 문제를 야기하며, 생산성을 크게 저해합니다. 따라서, 자동 컴파일 오류 수정 (ACER) 기술이 이러한 문제를 완화하기 위해 제안되었습니다. 최근 ACER 기술의 발전에도 불구하고, 실제 환경에서의 성능은 제대로 평가되지 못하고 있습니다. 이는 기존 벤치마크의 한계 때문인데, 즉, 맥락이 단절된 단일 파일 데이터, 진정한 소스 코드 다양성의 부족, 그리고 중요한 레포지토리 수준의 복잡성을 간과하는 편향된 로컬 작업 모델 등이 있습니다. 이러한 중요한 격차를 해소하기 위해, 우리는 C/C++ 컴파일 오류 수정을 위한 최초의 레포지토리 수준의 재현 가능한 실제 환경 벤치마크인 ComBench를 제안합니다. ComBench는 혁신적인 자동화 프레임워크를 통해 구축되었으며, 이 프레임워크는 대규모 오픈 소스 프로젝트의 GitHub CI 기록에서 실제 오류를 체계적으로 추출합니다. 우리의 프레임워크는 복잡한 버전 기록에서 정확하게 실제 수정 사항을 식별하는 기술과 원래의 일시적인 빌드 환경을 재현하는 고정밀 메커니즘을 제공합니다. 데이터 품질을 보장하기 위해, ComBench의 모든 샘플은 실행을 통해 검증되었으며, 이를 통해 재현 가능한 오류와 실제 수정 사항을 적용했을 때 빌드 성공을 보장합니다. ComBench를 사용하여, 우리는 직접 수정 및 에이전트 기반 수정 환경 모두에서 12개의 최신 LLM을 종합적으로 평가했습니다. 우리의 실험 결과, 모델이 구문적 정확성을 달성하는 능력 (GPT-5의 경우 73% 성공률)과 의미적 정확성을 보장하는 능력 사이에 상당한 격차가 있음을 보여줍니다 (수정 사항 중 41%만이 유효). 또한, 다양한 모델이 서로 다른 유형의 오류에 대한 특화된 능력을 가지고 있음을 확인했습니다. ComBench는 현대 소프트웨어 개발의 복잡성을 해결할 수 있는 ACER 기술의 미래 개발을 위한 견고하고 현실적인 플랫폼을 제공합니다.

Original Abstract

Compilation errors pose pervasive and critical challenges in software development, significantly hindering productivity. Therefore, Automated Compilation Error Repair (ACER) techniques are proposed to mitigate these issues. Despite recent advancements in ACER, its real-world performance remains poorly evaluated. This can be largely attributed to the limitations of existing benchmarks, \ie decontextualized single-file data, lack of authentic source diversity, and biased local task modeling that ignores crucial repository-level complexities. To bridge this critical gap, we propose ComBench, the first repository-level, reproducible real-world benchmark for C/C++ compilation error repair. ComBench is constructed through a novel, automated framework that systematically mines real-world failures from the GitHub CI histories of large-scale open-source projects. Our framework contributes techniques for the high-precision identification of ground-truth repair patches from complex version histories and a high-fidelity mechanism for reproducing the original, ephemeral build environments. To ensure data quality, all samples in ComBench are execution-verified -- guaranteeing reproducible failures and build success with ground-truth patches. Using ComBench, we conduct a comprehensive evaluation of 12 modern LLMs under both direct and agent-based repair settings. Our experiments reveal a significant gap between a model's ability to achieve syntactic correctness (a 73% success rate for GPT-5) and its ability to ensure semantic correctness (only 41% of its patches are valid). We also find that different models exhibit distinct specializations for different error types. ComBench provides a robust and realistic platform to guide the future development of ACER techniques capable of addressing the complexities of modern software development.

1 Citations
0 Influential
11 Altmetric
56.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!