SWE-Skills-Bench: 에이전트 기술은 실제 소프트웨어 엔지니어링에서 실제로 도움이 되는가?
SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?
에이전트 기술은 추론 시점에 주입되는 구조화된 절차적 지식 패키지로, 소프트웨어 엔지니어링 작업에서 LLM 에이전트를 강화하는 데 점점 더 많이 사용되고 있습니다. 그러나 이러한 기술이 엔드 투 엔드 개발 환경에서 실제로 얼마나 유용한지는 아직 불분명합니다. 본 논문에서는 실제 소프트웨어 엔지니어링(SWE)에서 에이전트 기술의 편익을 명확하게 분석하는 요구사항 기반 벤치마크인 SWE-Skills-Bench를 소개합니다. SWE-Skills-Bench는 49개의 공개된 SWE 기술을 특정 커밋으로 고정된 실제 GitHub 저장소와 명확한 수용 기준이 포함된 요구사항 문서와 연결하여, 6개의 SWE 하위 영역에 걸쳐 약 565개의 작업 인스턴스를 생성합니다. 각 작업의 수용 기준을 실행 기반 테스트에 매핑하는 결정론적 검증 프레임워크를 도입하여, 기술을 사용하는 경우와 사용하지 않는 경우를 통제된 방식으로 비교 평가할 수 있습니다. 실험 결과, 기술 적용으로 인한 효과는 빠른 채택 속도만큼 크지 않다는 것을 보여줍니다. 49개의 기술 중 39개는 통과율 향상에 영향을 미치지 않았으며, 평균적인 향상은 +1.2%에 불과했습니다. 토큰 오버헤드는 미미한 절약부터 통과율이 변함에도 불구하고 451% 증가에 이르기까지 다양했습니다. 7개의 전문 기술만이 의미 있는 성능 향상(+30%까지)을 가져왔으며, 3개의 기술은 버전 불일치로 인해 프로젝트 컨텍스트와 충돌하여 성능 저하(-10%까지)를 초래했습니다. 이러한 결과는 에이전트 기술이 특정 영역에 한정된 개입이며, 그 유용성은 도메인 적합성, 추상화 수준 및 컨텍스트 호환성에 크게 의존한다는 것을 시사합니다. SWE-Skills-Bench는 소프트웨어 엔지니어링 에이전트에서 기술의 설계, 선택 및 배포를 평가하기 위한 테스트베드를 제공합니다. SWE-Skills-Bench는 https://github.com/GeniusHTX/SWE-Skills-Bench 에서 이용할 수 있습니다.
Agent skills, structured procedural knowledge packages injected at inference time, are increasingly used to augment LLM agents on software engineering tasks. However, their real utility in end-to-end development settings remains unclear. We present SWE-Skills-Bench, the first requirement-driven benchmark that isolates the marginal utility of agent skills in real-world software engineering (SWE). It pairs 49 public SWE skills with authentic GitHub repositories pinned at fixed commits and requirement documents with explicit acceptance criteria, yielding approximately 565 task instances across six SWE subdomains. We introduce a deterministic verification framework that maps each task's acceptance criteria to execution-based tests, enabling controlled paired evaluation with and without the skill. Our results show that skill injection benefits are far more limited than rapid adoption suggests: 39 of 49 skills yield zero pass-rate improvement, and the average gain is only +1.2%. Token overhead varies from modest savings to a 451% increase while pass rates remain unchanged. Only seven specialized skills produce meaningful gains (up to +30%), while three degrade performance (up to -10%) due to version-mismatched guidance conflicting with project context. These findings suggest that agent skills are a narrow intervention whose utility depends strongly on domain fit, abstraction level, and contextual compatibility. SWE-Skills-Bench provides a testbed for evaluating the design, selection, and deployment of skills in software engineering agents. SWE-Skills-Bench is available at https://github.com/GeniusHTX/SWE-Skills-Bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.