HarmfulSkillBench: 유해 기술은 어떻게 에이전트를 악용하게 만드는가?
HarmfulSkillBench: How Do Harmful Skills Weaponize Your Agents?
대규모 언어 모델(LLM)은 ClawHub 및 Skills.Rest와 같은 공개 기술 생태계를 활용하는 자율 에이전트로 진화했으며, 이 생태계에는 수많은 재사용 가능한 기술이 존재합니다. 이러한 생태계에 대한 기존 보안 연구는 주로 기술 자체의 취약점, 예를 들어 프롬프트 주입에 초점을 맞추고 있습니다. 그러나 사이버 공격, 사기 및 기만, 개인 정보 침해, 성적 콘텐츠 생성 등 유해한 행동에 악용될 수 있는 기술, 즉 '유해 기술'에 대한 중요한 격차가 존재합니다. 본 논문에서는 두 개의 주요 등록 시스템에 걸쳐 98,440개의 기술을 대상으로 에이전트 생태계 내 유해 기술에 대한 최초의 대규모 측정 연구를 수행합니다. 저희가 개발한 유해 기술 분류를 기반으로 하는 LLM 기반 평가 시스템을 사용하여, 4.93%의 기술(4,858개)이 유해한 것으로 나타났습니다. ClawHub의 유해 기술 비율은 8.84%인 반면, Skills.Rest는 3.49%입니다. 그 후, 저희는 실제 에이전트 환경에서 에이전트의 안전성을 평가하기 위한 최초의 벤치마크인 HarmfulSkillBench를 구축했습니다. 이 벤치마크는 20개의 범주에 걸쳐 200개의 유해 기술과 4가지 평가 조건을 포함합니다. HarmfulSkillBench를 사용하여 6개의 LLM을 평가한 결과, 유해한 작업을 사전 설치된 기술을 통해 제시하면 모든 모델에서 거부율이 현저히 낮아지는 것으로 나타났습니다. 기술이 없을 때의 평균 유해성 점수는 0.27점이었지만, 기술을 사용할 때 0.47점으로 상승하고, 유해한 의도가 명시적인 사용자 요청이 아닌 암묵적으로 표현될 때 0.76점으로 더욱 상승합니다. 저희는 이러한 연구 결과를 관련 등록 시스템에 책임감 있게 공개하고, 향후 연구를 지원하기 위해 벤치마크를 공개합니다 (https://github.com/TrustAIRLab/HarmfulSkillBench).
Large language models (LLMs) have evolved into autonomous agents that rely on open skill ecosystems (e.g., ClawHub and Skills.Rest), hosting numerous publicly reusable skills. Existing security research on these ecosystems mainly focuses on vulnerabilities within skills, such as prompt injection. However, there is a critical gap regarding skills that may be misused for harmful actions (e.g., cyber attacks, fraud and scams, privacy violations, and sexual content generation), namely harmful skills. In this paper, we present the first large-scale measurement study of harmful skills in agent ecosystems, covering 98,440 skills across two major registries. Using an LLM-driven scoring system grounded in our harmful skill taxonomy, we find that 4.93% of skills (4,858) are harmful, with ClawHub exhibiting an 8.84% harmful rate compared to 3.49% on Skills.Rest. We then construct HarmfulSkillBench, the first benchmark for evaluating agent safety against harmful skills in realistic agent contexts, comprising 200 harmful skills across 20 categories and four evaluation conditions. By evaluating six LLMs on HarmfulSkillBench, we find that presenting a harmful task through a pre-installed skill substantially lowers refusal rates across all models, with the average harm score rising from 0.27 without the skill to 0.47 with it, and further to 0.76 when the harmful intent is implicit rather than stated as an explicit user request. We responsibly disclose our findings to the affected registries and release our benchmark to support future research (see https://github.com/TrustAIRLab/HarmfulSkillBench).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.