SkillTrojan: 기술 기반 에이전트 시스템에 대한 백도어 공격
SkillTrojan: Backdoor Attacks on Skill-Based Agent Systems
기술 기반 에이전트 시스템은 재사용 가능한 기술을 조합하여 복잡한 작업을 수행함으로써 모듈성과 확장성을 향상시키지만, 동시에 상당 부분 검토되지 않은 보안 취약점을 야기합니다. 본 논문에서는 모델 파라미터나 학습 데이터가 아닌, 기술 구현 자체를 대상으로 하는 백도어 공격인 SkillTrojan을 제안합니다. SkillTrojan은 정상적인 기술처럼 보이는 기술 내부에 악성 로직을 삽입하고, 표준 기술 조합을 활용하여 공격자가 지정한 페이로드를 재구성하고 실행합니다. 이 공격은 암호화된 페이로드를 여러 개의 정상적인 기술 호출로 분할하고, 사전에 정의된 트리거 조건 하에서만 활성화합니다. SkillTrojan은 또한 임의의 기술 템플릿에서 백도어화된 기술을 자동으로 생성하여 기술 기반 에이전트 생태계 전체로 공격을 확장할 수 있도록 지원합니다. 체계적인 평가를 위해, 다양한 기술 패턴과 트리거-페이로드 구성을 포함하는 3,000개 이상의 큐레이션된 백도어화된 기술 데이터 세트를 공개합니다. SkillTrojan을 대표적인 코드 기반 에이전트 환경에 구현하고, 정상적인 작업의 유용성과 공격 성공률을 평가했습니다. 결과는 기술 수준의 백도어가 정상적인 동작에 미치는 영향이 미미하면서도 매우 효과적일 수 있으며, 이는 현재 기술 기반 에이전트 아키텍처의 중요한 취약점을 드러낸다는 것을 보여줍니다. 구체적으로, SkillTrojan은 GPT-5.2-1211-Global 모델에서 EHR SQL 데이터에 대해 최대 97.2%의 공격 성공률(ASR)을 달성하면서도 89.3%의 정상적인 정확도(ACC)를 유지했습니다.
Skill-based agent systems tackle complex tasks by composing reusable skills, improving modularity and scalability while introducing a largely unexamined security attack surface. We propose SkillTrojan, a backdoor attack that targets skill implementations rather than model parameters or training data. SkillTrojan embeds malicious logic inside otherwise plausible skills and leverages standard skill composition to reconstruct and execute an attacker-specified payload. The attack partitions an encrypted payload across multiple benign-looking skill invocations and activates only under a predefined trigger. SkillTrojan also supports automated synthesis of backdoored skills from arbitrary skill templates, enabling scalable propagation across skill-based agent ecosystems. To enable systematic evaluation, we release a dataset of 3,000+ curated backdoored skills spanning diverse skill patterns and trigger-payload configurations. We instantiate SkillTrojan in a representative code-based agent setting and evaluate both clean-task utility and attack success rate. Our results show that skill-level backdoors can be highly effective with minimal degradation of benign behavior, exposing a critical blind spot in current skill-based agent architectures and motivating defenses that explicitly reason about skill composition and execution. Concretely, on EHR SQL, SkillTrojan attains up to 97.2% ASR while maintaining 89.3% clean ACC on GPT-5.2-1211-Global.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.