STARS: 에이전트 시스템에서 요청 조건부 호출 안전성을 위한 기술 기반 감사
STARS: Skill-Triggered Audit for Request-Conditioned Invocation Safety in Agent Systems
자율적인 언어 모델 에이전트는 사용자 작업을 완료하기 위해 설치 가능한 기술과 도구에 점점 더 의존하고 있습니다. 정적 기술 감사는 배포 전에 기능 범위를 파악하는 데 도움이 되지만, 특정 호출이 현재 사용자 요청 및 런타임 컨텍스트에서 안전하지 않은지 여부를 판단할 수 없습니다. 따라서 본 연구에서는 기술 호출 감사를 지속적인 위험 추정 문제로 간주합니다. 즉, 사용자 요청, 후보 기술, 런타임 컨텍스트가 주어졌을 때, 강제적인 개입이 적용되기 전에 순위를 매기고 분류하는 데 도움이 되는 점수를 예측합니다. 본 연구에서는 정적 기능 사전 정보, 요청 조건부 호출 위험 모델, 그리고 보정된 위험 융합 정책을 결합한 STARS를 제안합니다. 이 설정을 평가하기 위해 SIA-Bench를 구축했습니다. SIA-Bench는 그룹 안전 기준으로 분리된 3,000개의 호출 기록, 계보 메타데이터, 런타임 컨텍스트, 표준 액션 레이블, 그리고 파생된 연속 위험 타겟으로 구성된 벤치마크입니다. 간접 프롬프트 주입 공격에 대한 독립 검증 데이터셋에서, 보정된 융합 방식은 0.439의 높은 위험 AUPRC를 달성하여 컨텍스트 기반 점수기의 0.405 및 가장 강력한 정적 기준의 0.380을 능가했습니다. 또한 컨텍스트 기반 점수기는 0.289의 예상 보정 오류로 더 잘 보정되었습니다. 래핑된 인-디스트리뷰션 테스트 데이터셋에서는 성능 향상이 작으며, 정적 사전 정보는 여전히 유용합니다. 따라서 결론은 다음과 같습니다. 요청 조건부 감사는 정적 검사를 대체하는 것이 아니라, 호출 시점의 위험 점수 및 분류 계층으로 가장 가치가 있습니다. 관련 코드는 https://github.com/123zgj123/STARS 에서 확인할 수 있습니다.
Autonomous language-model agents increasingly rely on installable skills and tools to complete user tasks. Static skill auditing can expose capability surface before deployment, but it cannot determine whether a particular invocation is unsafe under the current user request and runtime context. We therefore study skill invocation auditing as a continuous-risk estimation problem: given a user request, candidate skill, and runtime context, predict a score that supports ranking and triage before a hard intervention is applied. We introduce STARS, which combines a static capability prior, a request-conditioned invocation risk model, and a calibrated risk-fusion policy. To evaluate this setting, we construct SIA-Bench, a benchmark of 3,000 invocation records with group-safe splits, lineage metadata, runtime context, canonical action labels, and derived continuous-risk targets. On a held-out split of indirect prompt injection attacks, calibrated fusion reaches 0.439 high-risk AUPRC, improving over 0.405 for the contextual scorer and 0.380 for the strongest static baseline, while the contextual scorer remains better calibrated with 0.289 expected calibration error. On the locked in-distribution test split, gains are smaller and static priors remain useful. The resulting claim is therefore narrower: request-conditioned auditing is most valuable as an invocation-time risk-scoring and triage layer rather than as a replacement for static screening. Code is available at https://github.com/123zgj123/STARS.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.