2602.03012v1 Feb 03, 2026 cs.CR

CVE-Factory: 코드 보안 취약점 분석을 위한 전문가 수준의 에이전트 작업 확장

CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability

Qingfu Zhu
Qingfu Zhu
Citations: 402
h-index: 9
Wencong Zeng
Wencong Zeng
Citations: 25
h-index: 3
Yang Yue
Yang Yue
Citations: 62
h-index: 4
Xianzhen Luo
Xianzhen Luo
Citations: 257
h-index: 7
Jingyuan Zhang
Jingyuan Zhang
Citations: 21
h-index: 2
Shiqi Zhou
Shiqi Zhou
Citations: 0
h-index: 0
Rain Huang
Rain Huang
Citations: 0
h-index: 0
Chuan Xiao
Chuan Xiao
Citations: 53
h-index: 3
Zhiyuan Ma
Zhiyuan Ma
Citations: 7
h-index: 1
X. Yue
X. Yue
Citations: 0
h-index: 0
Wanxiang Che
Wanxiang Che
Citations: 258
h-index: 9

코드 에이전트의 보안 기능을 평가하고 개선하기 위해서는 고품질의 실행 가능한 취약점 관련 작업이 필요합니다. 그러나 기존 연구는 비용이 많이 들고 확장성이 낮은 수동 재현에 의존하며, 데이터 분포가 오래된 문제를 안고 있습니다. 이러한 문제를 해결하기 위해, 우리는 전문가 수준의 품질을 갖춘, 희소한 CVE 메타데이터를 완전한 실행 가능한 에이전트 작업으로 자동 변환하는 최초의 멀티 에이전트 프레임워크인 CVE-Factory를 제시합니다. 인간 전문가의 재현 결과와의 교차 검증에서 CVE-Factory는 95%의 해결 정확도와 96%의 환경 충실도를 달성하여, 전문가 수준의 품질을 확인했습니다. 또한, 최신 실제 취약점에 대한 평가에서 66.2%의 검증된 성공률을 보였습니다. 이러한 자동화는 두 가지 중요한 결과로 이어집니다. 첫째, 우리는 14개 언어와 153개 저장소를 포괄하는 190개의 작업으로 구성된, 지속적으로 업데이트되는 벤치마크인 LiveCVEBench를 구축했습니다. 여기에는 AI 도구 관련 취약점과 같은 새로운 위협이 포함됩니다. 둘째, 우리는 1,000개 이상의 실행 가능한 학습 환경을 생성하여, 코드 보안 분야에서 에이전트 작업의 대규모 확장을 실현했습니다. Fine-tuning된 Qwen3-32B 모델은 LiveCVEBench에서 5.3%에서 35.8%로 성능이 향상되었으며, 이는 Claude 4.5 Sonnet을 능가하는 결과입니다. 이러한 성능 향상은 Terminal Bench에서도 12.5%에서 31.3%로 개선되었습니다. 우리는 CVE-Factory, LiveCVEBench, Abacus-cve (fine-tuned 모델), 학습 데이터셋, 그리고 리더보드를 오픈 소스로 공개합니다. 모든 리소스는 https://github.com/livecvebench/CVE-Factory 에서 이용 가능합니다.

Original Abstract

Evaluating and improving the security capabilities of code agents requires high-quality, executable vulnerability tasks. However, existing works rely on costly, unscalable manual reproduction and suffer from outdated data distributions. To address these, we present CVE-Factory, the first multi-agent framework to achieve expert-level quality in automatically transforming sparse CVE metadata into fully executable agentic tasks. Cross-validation against human expert reproductions shows that CVE-Factory achieves 95\% solution correctness and 96\% environment fidelity, confirming its expert-level quality. It is also evaluated on the latest realistic vulnerabilities and achieves a 66.2\% verified success. This automation enables two downstream contributions. First, we construct LiveCVEBench, a continuously updated benchmark of 190 tasks spanning 14 languages and 153 repositories that captures emerging threats including AI-tooling vulnerabilities. Second, we synthesize over 1,000 executable training environments, the first large-scale scaling of agentic tasks in code security. Fine-tuned Qwen3-32B improves from 5.3\% to 35.8\% on LiveCVEBench, surpassing Claude 4.5 Sonnet, with gains generalizing to Terminal Bench (12.5\% to 31.3\%). We open-source CVE-Factory, LiveCVEBench, Abacus-cve (fine-tuned model), training dataset, and leaderboard. All resources are available at https://github.com/livecvebench/CVE-Factory .

0 Citations
0 Influential
44.887687219529 Altmetric
224.4 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!