2604.05955v1 Apr 07, 2026 cs.SE

합격률이 모든 것을 말해주는가? LLM 기반 문제 해결에서 설계 제약 조건 준수 여부 평가

Does Pass Rate Tell the Whole Story? Evaluating Design Constraint Compliance in LLM-based Issue Resolution

Xueying Du
Xueying Du
Citations: 722
h-index: 8
Kai Yu
Kai Yu
Citations: 31
h-index: 2
Zhiqiang Yuan
Zhiqiang Yuan
Citations: 613
h-index: 8
Junwei Liu
Junwei Liu
Citations: 825
h-index: 6
Yujia Wang
Yujia Wang
Citations: 32
h-index: 3
Chong Wang
Chong Wang
Citations: 50
h-index: 3
Xin Peng
Xin Peng
Citations: 82
h-index: 3
Zhenhao Zhou
Zhenhao Zhou
Citations: 11
h-index: 2
Junhao Zeng
Junhao Zeng
Citations: 2,694
h-index: 3
Ying Wang
Ying Wang
Citations: 66
h-index: 2
Ziyu Zhou
Ziyu Zhou
Citations: 26
h-index: 3

저장소 수준의 문제 해결 벤치마크는 LLM 기반 에이전트 평가를 위한 표준 테스트 환경으로 자리 잡았지만, 여전히 성공은 주로 테스트 합격률로 측정됩니다. 그러나 실제로는 수용 가능한 패치는 프로젝트별 설계 제약 조건, 예를 들어 아키텍처 규칙, 오류 처리 정책 및 유지 관리 요구 사항을 준수해야 합니다. 이러한 제약 조건은 테스트에 거의 포함되지 않으며, 종종 코드 검토 토론에서만 암묵적으로 문서화됩니다. 본 논문에서는 '설계 인식 문제 해결'을 소개하고, 이러한 암묵적인 설계 제약 조건을 명시적이고 측정 가능하게 만드는 벤치마크인 ench{}를 제시합니다. ench{}는 실제 pull request에서 설계 제약 조건을 추출하고 검증하여 문제 인스턴스와 연결하고, LLM 기반 검증기를 사용하여 패치 준수 여부를 자동으로 확인했습니다. 그 결과, 6개의 저장소에서 495개의 문제와 1,787개의 검증된 제약 조건이 생성되었으며, 이는 SWE-bench-Verified 및 SWE-bench-Pro와 일치합니다. 최첨단 에이전트들을 사용한 실험 결과, 테스트 기반 정확성이 패치 품질을 크게 과대평가하는 것으로 나타났습니다. 해결된 문제의 절반 미만이 설계 요구 사항을 완전히 충족하며, 설계 위반 사례가 광범위하게 나타납니다. 또한 기능적 정확성은 설계 만족도와 통계적으로 유의미한 연관성이 없는 것으로 나타났습니다. 문제별 설계 지침을 제공하면 위반 사례가 줄어들지만, 여전히 상당한 수준의 비준수 현상이 나타납니다. 이는 현재 에이전트의 능력에 근본적인 격차가 있음을 보여주며, 기능적 정확성 외에 설계 인식 평가의 필요성을 강조합니다.

Original Abstract

Repository-level issue resolution benchmarks have become a standard testbed for evaluating LLM-based agents, yet success is still predominantly measured by test pass rates. In practice, however, acceptable patches must also comply with project-specific design constraints, such as architectural conventions, error-handling policies, and maintainability requirements, which are rarely encoded in tests and are often documented only implicitly in code review discussions. This paper introduces \textit{design-aware issue resolution} and presents \bench{}, a benchmark that makes such implicit design constraints explicit and measurable. \bench{} is constructed by mining and validating design constraints from real-world pull requests, linking them to issue instances, and automatically checking patch compliance using an LLM-based verifier, yielding 495 issues and 1,787 validated constraints across six repositories, aligned with SWE-bench-Verified and SWE-bench-Pro. Experiments with state-of-the-art agents show that test-based correctness substantially overestimates patch quality: fewer than half of resolved issues are fully design-satisfying, design violations are widespread, and functional correctness exhibits negligible statistical association with design satisfaction. While providing issue-specific design guidance reduces violations, substantial non-compliance remains, highlighting a fundamental gap in current agent capabilities and motivating design-aware evaluation beyond functional correctness.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!