2603.04915v1 Mar 05, 2026 cs.LG

EVMbench: 스마트 컨트랙트 보안에 대한 AI 에이전트 평가

EVMbench: Evaluating AI Agents on Smart Contract Security

Tejal Patwardhan
Tejal Patwardhan
Citations: 4,190
h-index: 11
Justin Wang
Justin Wang
Citations: 2
h-index: 1
Andreas Bigger
Andreas Bigger
Citations: 11
h-index: 2
Xiaohai Xu
Xiaohai Xu
Citations: 427
h-index: 1
Justin W. Lin
Justin W. Lin
Citations: 238
h-index: 5
Andy Applebaum
Andy Applebaum
Citations: 585
h-index: 3
Alpin Yukseloglu
Alpin Yukseloglu
Citations: 0
h-index: 0
Olivia Watkins
Olivia Watkins
Citations: 3,988
h-index: 8

공개 블록체인 상의 스마트 컨트랙트는 현재 막대한 가치를 관리하며, 이러한 시스템의 취약점은 상당한 손실로 이어질 수 있습니다. AI 에이전트가 코드를 읽고, 작성하고, 실행하는 능력이 향상됨에 따라, 이러한 에이전트가 현재 스마트 컨트랙트 환경을 얼마나 잘 이해하고 있는지, 그리고 어떻게 보안을 강화하고 위험을 증가시킬 수 있는지 평가하는 것이 중요합니다. 본 연구에서는 EVMbench를 소개합니다. EVMbench는 에이전트가 스마트 컨트랙트의 취약점을 탐지, 수정, 악용하는 능력을 측정하는 평가 도구입니다. EVMbench는 40개 저장소에서 수집된 117개의 선별된 취약점을 활용하며, 현장과 가장 유사한 환경에서 로컬 이더리움 실행 환경 내에서 테스트 및 블록체인 상태를 기반으로 한 자동 평가 방식을 사용합니다. 다양한 최첨단 에이전트를 평가한 결과, 이들이 실제 블록체인 환경에서 취약점을 발견하고 악용할 수 있음을 확인했습니다. 본 연구에서는 관련 코드, 작업 및 도구를 공개하여 이러한 기능에 대한 지속적인 측정과 향후 보안 연구를 지원하고자 합니다.

Original Abstract

Smart contracts on public blockchains now manage large amounts of value, and vulnerabilities in these systems can lead to substantial losses. As AI agents become more capable at reading, writing, and running code, it is natural to ask how well they can already navigate this landscape, both in ways that improve security and in ways that might increase risk. We introduce EVMbench, an evaluation that measures the ability of agents to detect, patch, and exploit smart contract vulnerabilities. EVMbench draws on 117 curated vulnerabilities from 40 repositories and, in the most realistic setting, uses programmatic grading based on tests and blockchain state under a local Ethereum execution environment. We evaluate a range of frontier agents and find that they are capable of discovering and exploiting vulnerabilities end-to-end against live blockchain instances. We release code, tasks, and tooling to support continued measurement of these capabilities and future work on security.

1 Citations
1 Influential
5.5 Altmetric
30.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!