코딩 에이전트는 최소 권한 부여를 이해할까요?
Do Coding Agents Understand Least-Privilege Authorization?
코딩 에이전트가 셸, 저장소 및 사용자 파일에 접근함에 따라, 안전한 배포를 위해서는 최소 권한 부여가 필수적입니다. 에이전트는 작업을 완료하는 데 필요한 권한만 가져야 하며, 민감한 정보를 노출할 수 있는 불필요한 권한은 없어야 합니다. 본 연구에서는 현재 모델이 이러한 경계를 스스로 추론할 수 있는지 조사하기 위해, 먼저 권한 경계 추론(permission-boundary inference)을 소개합니다. 이는 모델이 작업 지시사항과 터미널 환경을 기반으로 파일 수준의 읽기/쓰기/실행 정책을 매핑하는 것입니다. 또한, AuthBench라는 벤치마크를 제시합니다. AuthBench는 120개의 현실적인 터미널 작업을 포함하며, 인간이 검토한 권한 레이블과 유틸리티 및 공격 결과에 대한 실행 가능한 검증기를 제공합니다. AuthBench의 결과는 권한 부여가 단순한 보수적-허용적 균형 문제가 아니라는 것을 보여줍니다. 최첨단 모델은 종종 실행 체인에 필요한 권한을 누락하는 동시에 사용되지 않거나 민감한 접근 권한을 부여합니다. 추론 시간을 늘려도 이러한 불일치를 해결할 수 없습니다. 대신, 각 모델은 모델 고유의 권한 부여 패턴(authorization attractor)으로 수렴합니다. 더 많은 추론은 모델의 실패 패턴을 더욱 일관되게 만듭니다. 이는 광범위하지만 취약하거나, 엄격하지만 부서지기 쉬운 패턴을 나타낼 수 있습니다. 이는 직접적인 정책 생성 자체가 병목 현상이라는 것을 시사합니다. 왜냐하면 단일 생성 단계에서 모든 필요한 접근 권한을 발견하고 모든 불필요한 접근 권한을 거부해야 하기 때문입니다. 따라서, 본 연구에서는 Sufficiency-Tightness Decomposition이라는 방법을 제안합니다. 이 방법은 먼저 작업의 순방향 시뮬레이션을 통해 범위에 초점을 맞춘 정책을 생성한 다음, 부여된 각 항목의 타당성 및 민감성을 검증합니다. 테스트된 모델에서, 이 분해 방법은 엄격성 중심 모델에서 민감 작업의 성공률을 최대 15.8%까지 향상시키는 동시에 모든 평가된 모델에서 공격 성공률을 감소시킵니다.
As coding agents gain access to shells, repositories, and user files, least-privilege authorization becomes a prerequisite for safe deployment: an agent should receive enough authority to complete the task, without unnecessary authority that exposes sensitive surfaces.To study whether current models can infer this boundary themselves, we first introduce permission-boundary inference, where a model maps a task instruction and terminal environment to a file-level read/write/execute policy, and AuthBench, a benchmark of 120 realistic terminal tasks with human-reviewed permission labels and executable validators for utility and attack outcomes.AuthBench shows that authorization is not a simple conservative-versus-permissive calibration problem: frontier models often omit permissions required by the execution chain while also granting unused or sensitive accesses.Increasing inference-time reasoning does not resolve this mismatch. Instead, each model moves toward a model-specific authorization attractor: more reasoning makes it more consistent in its own failure mode, whether broad-but-exposed or tight-but-brittle.This suggests that direct policy generation is the bottleneck, because a single generation must both discover all necessary accesses and reject all unnecessary ones.We therefore propose Sufficiency-Tightness Decomposition, which first generates a coverage-oriented policy by forward-simulating the task and then audits each granted entry for grounding and sensitivity.Across tested models, this decomposition improves sensitive-task success by up to 15.8% on tightness-biased models while reducing attack success across all evaluated models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.