사이버 공격에 대응하기 위해 우리는 AI 에이전트에게 해킹 기술을 가르쳐야 한다
To Defend Against Cyber Attacks, We Must Teach AI Agents to Hack
10년 이상 동안 사이버 보안은 인간의 노력 부족을 활용하여 공격자를 수동으로 고가 목표물에 집중시키거나, 대규모의 일반적인 자동 공격을 수행하도록 제한해 왔습니다. 정교한 악성코드 개발에는 깊은 전문 지식과 수동적인 노력이 필요하며, 이러한 이유로 방어자들은 공격자가 대규모로 맞춤형 공격을 감당할 여력이 없을 것이라고 가정합니다. AI 에이전트는 수천 개의 목표물을 대상으로 취약점 발견 및 악용을 자동화함으로써 이러한 균형을 깨뜨립니다. AI 에이전트는 성공률이 낮더라도 수익성을 유지할 수 있습니다. 현재 개발자들은 데이터 필터링, 안전 정렬 및 출력 제어 등을 통해 오용을 방지하는 데 집중하고 있습니다. 그러나 이러한 보호 장치는 오픈 웨이트 모델을 제어하거나 안전 장치를 우회하거나 자체적으로 공격 능력을 개발하는 공격자에게는 효과가 없습니다. 우리는 AI 에이전트 기반의 사이버 공격이 불가피하며, 이는 방어 전략의 근본적인 변화를 요구한다고 주장합니다. 본 논문에서는 기존 방어 기술이 적응형 공격자를 막을 수 없는 이유를 분석하고, 방어자들이 공격 보안 지능을 개발해야 하는 이유를 제시합니다. 책임감 있는 방식으로 선도적인 공격 AI 역량을 구축하기 위한 세 가지 방법을 제안합니다. 첫째, 전체 공격 라이프사이클을 포괄하는 종합적인 벤치마크를 구축해야 합니다. 둘째, 워크플로우 기반 접근 방식에서 벗어나, 대규모로 실제 환경에서 취약점을 발견할 수 있는 훈련된 에이전트로 발전해야 합니다. 셋째, 공격 에이전트를 감사된 사이버 범위로 제한하고, 기능 수준별로 점진적으로 배포하며, 결과를 안전한 방어 전용 에이전트로 변환하는 거버넌스를 구현해야 합니다. 우리는 공격 AI 역량을 필수적인 방어 인프라로 간주해야 하며, 사이버 보안 위험을 해결하려면 공격자가 이를 먼저 숙달하기 전에 통제된 환경에서 이를 마스터해야 합니다.
For over a decade, cybersecurity has relied on human labor scarcity to limit attackers to high-value targets manually or generic automated attacks at scale. Building sophisticated exploits requires deep expertise and manual effort, leading defenders to assume adversaries cannot afford tailored attacks at scale. AI agents break this balance by automating vulnerability discovery and exploitation across thousands of targets, needing only small success rates to remain profitable. Current developers focus on preventing misuse through data filtering, safety alignment, and output guardrails. Such protections fail against adversaries who control open-weight models, bypass safety controls, or develop offensive capabilities independently. We argue that AI-agent-driven cyber attacks are inevitable, requiring a fundamental shift in defensive strategy. In this position paper, we identify why existing defenses cannot stop adaptive adversaries and demonstrate that defenders must develop offensive security intelligence. We propose three actions for building frontier offensive AI capabilities responsibly. First, construct comprehensive benchmarks covering the full attack lifecycle. Second, advance from workflow-based to trained agents for discovering in-wild vulnerabilities at scale. Third, implement governance restricting offensive agents to audited cyber ranges, staging release by capability tier, and distilling findings into safe defensive-only agents. We strongly recommend treating offensive AI capabilities as essential defensive infrastructure, as containing cybersecurity risks requires mastering them in controlled settings before adversaries do.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.