2602.15485v2 Feb 17, 2026 cs.CR

SecCodeBench-V2 기술 보고서

SecCodeBench-V2 Technical Report

Longfei Chen
Longfei Chen
Citations: 20
h-index: 3
Tong Su
Tong Su
Citations: 149
h-index: 6
Xingbo Pan
Xingbo Pan
Citations: 0
h-index: 0
Ziyang Li
Ziyang Li
Citations: 94
h-index: 5
Yongxin Wu
Yongxin Wu
Citations: 14
h-index: 2
Qi Cao
Qi Cao
Citations: 21
h-index: 2
Qiyao Cai
Qiyao Cai
Citations: 0
h-index: 0
Jing Zhang
Jing Zhang
Citations: 256
h-index: 3
Y. Ni
Y. Ni
Citations: 35
h-index: 4
Junyao He
Junyao He
Citations: 5
h-index: 1
Zeyu Zhang
Zeyu Zhang
Citations: 112
h-index: 4
Chao Ge
Chao Ge
Citations: 6
h-index: 1
Xu Lu
Xu Lu
Citations: 14
h-index: 2
Zeyu Gao
Zeyu Gao
Citations: 367
h-index: 7
Yuxin Cui
Yuxin Cui
Citations: 62
h-index: 5
Weisen Chen
Weisen Chen
Citations: 35
h-index: 2
Yuxuan Peng
Yuxuan Peng
Citations: 10
h-index: 2
Shengping Wang
Shengping Wang
Citations: 16
h-index: 1
Qi Li
Qi Li
Citations: 16
h-index: 3
Yukai Huang
Yukai Huang
Citations: 27
h-index: 3
Yukun Liu
Yukun Liu
Citations: 18
h-index: 2
Tuo Zhou
Tuo Zhou
Citations: 231
h-index: 5
Terry Yue Zhuo
Terry Yue Zhuo
Citations: 3,884
h-index: 19
Jun R Lin
Jun R Lin
Citations: 9
h-index: 2
Chao Zhang
Chao Zhang
Citations: 12
h-index: 2
Lan-Yu Cui
Lan-Yu Cui
Citations: 0
h-index: 0
Ji Zhao
Ji Zhao
Citations: 5
h-index: 1

본 논문에서는 안전한 코드 생성을 위한 대규모 언어 모델(LLM) 코파일럿의 기능을 평가하기 위한 공개 벤치마크인 SecCodeBench-V2를 소개합니다. SecCodeBench-V2는 알리바바 그룹의 산업 생산에서 파생된 98개의 생성 및 수정 시나리오로 구성되어 있으며, 22개의 일반적인 CWE(Common Weakness Enumeration) 범주에 걸쳐 Java, C, Python, Go, JavaScript 총 5개의 프로그래밍 언어에서 발생하는 보안 문제를 다룹니다. SecCodeBench-V2는 함수 수준의 작업 형식을 채택하며, 각 시나리오는 완전한 프로젝트 템플릿을 제공하며 모델이 지정된 대상 함수를 고정된 인터페이스 및 종속성을 사용하여 구현하거나 수정하도록 요구합니다. 각 시나리오에 대해 SecCodeBench-V2는 기능 검증 및 보안 검증을 위한 실행 가능한 증명 개념(PoC) 테스트 케이스를 제공합니다. 모든 테스트 케이스는 보안 전문가가 작성하고 이중 검토하여 높은 신뢰성, 광범위한 적용 범위 및 안정적인 기준점을 보장합니다. 벤치마크 자체 외에도, 우리는 모델을 주로 동적 실행을 통해 평가하는 통합 평가 파이프라인을 구축했습니다. 대부분의 시나리오에서, 모델이 생성한 코드를 격리된 환경에서 컴파일하고 실행하며, PoC 테스트 케이스를 실행하여 기능 정확성과 보안 특성을 검증합니다. 결정적인 테스트 케이스만으로는 보안 문제를 판단할 수 없는 시나리오의 경우, LLM을 활용한 판단 오라클을 추가적으로 사용합니다. 다양한 시나리오와 난이도 수준에 대한 성능을 요약하기 위해, 우리는 시나리오와 심각도에 대한 체계적인 집계를 통해 전체적이고 비교 가능한 평가를 가능하게 하는 Pass@K 기반의 점수 부여 프로토콜을 설계했습니다. 전반적으로, SecCodeBench-V2는 AI 코딩 지원 도구의 보안 상태를 평가하기 위한 엄격하고 재현 가능한 기반을 제공하며, 결과 및 관련 자료는 https://alibaba.github.io/sec-code-bench에서 공개됩니다. 벤치마크는 https://github.com/alibaba/sec-code-bench에서 공개적으로 이용 가능합니다.

Original Abstract

We introduce SecCodeBench-V2, a publicly released benchmark for evaluating Large Language Model (LLM) copilots' capabilities of generating secure code. SecCodeBench-V2 comprises 98 generation and fix scenarios derived from Alibaba Group's industrial productions, where the underlying security issues span 22 common CWE (Common Weakness Enumeration) categories across five programming languages: Java, C, Python, Go, and JavaScript. SecCodeBench-V2 adopts a function-level task formulation: each scenario provides a complete project scaffold and requires the model to implement or patch a designated target function under fixed interfaces and dependencies. For each scenario, SecCodeBench-V2 provides executable proof-of-concept (PoC) test cases for both functional validation and security verification. All test cases are authored and double-reviewed by security experts, ensuring high fidelity, broad coverage, and reliable ground truth. Beyond the benchmark itself, we build a unified evaluation pipeline that assesses models primarily via dynamic execution. For most scenarios, we compile and run model-generated artifacts in isolated environments and execute PoC test cases to validate both functional correctness and security properties. For scenarios where security issues cannot be adjudicated with deterministic test cases, we additionally employ an LLM-as-a-judge oracle. To summarize performance across heterogeneous scenarios and difficulty levels, we design a Pass@K-based scoring protocol with principled aggregation over scenarios and severity, enabling holistic and comparable evaluation across models. Overall, SecCodeBench-V2 provides a rigorous and reproducible foundation for assessing the security posture of AI coding assistants, with results and artifacts released at https://alibaba.github.io/sec-code-bench. The benchmark is publicly available at https://github.com/alibaba/sec-code-bench.

0 Citations
0 Influential
52.054297532584 Altmetric
260.3 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!