공격 보안 작업에 적합한 최적의 자율 에이전트 아키텍처 연구
Towards Optimal Agentic Architectures for Offensive Security Tasks
자율 보안 시스템은 점점 더 많은 경우, 도구 사용 LLM을 활용하여 실시간 대상 시스템을 감사합니다. 그러나 기존 시스템은 단일한 조정 방식을 고정하고 있어, 추가 에이전트가 도움이 되는 시점과 비용만 증가시키는 시점을 명확히 파악하기 어렵습니다. 본 연구에서는 조정 방식 선택을 경험적인 시스템 문제로 간주합니다. 20개의 상호작용 대상(10개의 웹/API 대상 및 10개의 바이너리 대상)으로 구성된 통제된 벤치마크를 소개하며, 각 대상은 하나의 엔드포인트에서 접근 가능한 실제 취약점을 노출합니다. 벤치마크는 화이트박스 및 블랙박스 모드에서 평가됩니다. 핵심 연구에서는 5개의 아키텍처 패밀리, 3개의 모델 패밀리를 대상으로 총 600번의 실행을 수행하며, 60번의 실행으로 구성된 장기 컨텍스트 파일럿 연구는 부록에 별도로 제시됩니다. 핵심 벤치마크 결과, 취약점 탐지율은 58.0%, 검증된 탐지율은 49.8%입니다. MAS-Indep 아키텍처가 가장 높은 검증된 탐지율(64.2%)을 달성했으며, SAS 아키텍처는 검증된 발견 건당 0.058달러로 가장 효율적인 기준 성능을 보입니다. 화이트박스 모드가 블랙박스 모드(검증된 탐지율 67.0% vs. 32.7%)보다 현저히 우수한 성능을 보이며, 웹 대상이 바이너리 대상(검증된 탐지율 74.3% vs. 25.3%)보다 성능이 우수합니다. 부트스트랩 신뢰 구간 및 쌍을 이룬 대상 수준의 차이를 통해 관찰 가능성과 도메인이 주요 영향 요인임을 확인했으며, 일부 선도적인 화이트박스 아키텍처는 통계적으로 유의미한 차이를 보이지 않습니다. 주요 결과는 비용-품질 간의 비단조적인 관계를 보여주는데, 더 넓은 범위의 조정은 커버리지를 향상시킬 수 있지만, 지연 시간, 토큰 비용 및 익스플로잇 검증 난이도를 고려할 때 항상 우수한 성능을 보이는 것은 아닙니다.
Agentic security systems increasingly audit live targets with tool-using LLMs, but prior systems fix a single coordination topology, leaving unclear when additional agents help and when they only add cost. We treat topology choice as an empirical systems question. We introduce a controlled benchmark of 20 interactive targets (10 web/API and 10 binary), each exposing one endpoint-reachable ground-truth vulnerability, evaluated in whitebox and blackbox modes. The core study executes 600 runs over five architecture families, three model families, and both access modes, with a separate 60-run long-context pilot reported only in the appendix. On the completed core benchmark, detection-any reaches 58.0% and validated detection reaches 49.8%. MAS-Indep attains the highest validated detection rate (64.2%), while SAS is the strongest efficiency baseline at $0.058 per validated finding. Whitebox materially outperforms blackbox (67.0% vs. 32.7% validated detection), and web materially outperforms binary (74.3% vs. 25.3%). Bootstrap confidence intervals and paired target-level deltas show that the dominant effects are observability and domain, while some leading whitebox topologies remain statistically close. The main result is a non-monotonic cost-quality frontier: broader coordination can improve coverage, but it does not dominate once latency, token cost, and exploit-validation difficulty are taken into account.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.