2601.21233v1 Jan 29, 2026 cs.AI

Just Ask: 호기심 많은 코드 에이전트가 최첨단 LLM의 시스템 프롬프트를 드러내다

Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs

Yige Li
Yige Li
Citations: 375
h-index: 12
Yutao Wu
Yutao Wu
Citations: 22
h-index: 1
Xingjun Ma
Xingjun Ma
Citations: 2
h-index: 1
Yu-Gang Jiang
Yu-Gang Jiang
Citations: 1,147
h-index: 14
Xiang Zheng
Xiang Zheng
Citations: 110
h-index: 4
Bo Li
Bo Li
Citations: 15
h-index: 1
Hanxun Huang
Hanxun Huang
The University of Melbourne
Citations: 1,153
h-index: 12
Cong Wang
Cong Wang
Citations: 82
h-index: 4

대규모 언어 모델을 기반으로 구축된 자율 코드 에이전트는 도구 사용, 장기 추론, 자기 주도적 상호작용을 통해 소프트웨어 및 AI 개발을 재편하고 있다. 그러나 이러한 자율성은 이전에는 인식되지 않았던 보안 위험을 초래한다. 즉, 에이전트적 상호작용은 LLM 공격 표면을 근본적으로 확장하여, 모델의 동작을 유도하는 숨겨진 시스템 프롬프트를 체계적으로 탐색하고 복구할 수 있게 한다. 우리는 시스템 프롬프트 추출을 코드 에이전트 고유의 떠오르는 취약점으로 규명하고, 상호작용만으로 효과적인 추출 전략을 자율적으로 발견하는 자가 진화 프레임워크인 JustAsk를 제안한다. 기존의 프롬프트 엔지니어링이나 데이터셋 기반 공격과 달리, JustAsk는 수작업 프롬프트, 레이블이 지정된 감독, 또는 표준 사용자 상호작용 이상의 특권 접근을 필요로 하지 않는다. 이는 추출 과정을 온라인 탐색 문제로 정식화하며, 상한 신뢰 구간(UCB) 기반 전략 선택과 원자적 탐색 및 고수준 오케스트레이션을 포괄하는 계층적 스킬 공간을 사용한다. 이러한 스킬들은 불완전한 시스템 지시 일반화와 유용성 및 안전성 사이의 내재적 긴장을 악용한다. 여러 제공업체의 41개 블랙박스 상용 모델을 대상으로 평가한 결과, JustAsk는 일관되게 완전하거나 거의 완전한 수준의 시스템 프롬프트 복구를 달성하여 반복되는 설계 및 아키텍처 수준의 취약점을 드러냈다. 우리의 결과는 현대 에이전트 시스템에서 시스템 프롬프트가 중요하지만 대부분 보호되지 않은 공격 표면임을 보여준다.

Original Abstract

Autonomous code agents built on large language models are reshaping software and AI development through tool use, long-horizon reasoning, and self-directed interaction. However, this autonomy introduces a previously unrecognized security risk: agentic interaction fundamentally expands the LLM attack surface, enabling systematic probing and recovery of hidden system prompts that guide model behavior. We identify system prompt extraction as an emergent vulnerability intrinsic to code agents and present \textbf{\textsc{JustAsk}}, a self-evolving framework that autonomously discovers effective extraction strategies through interaction alone. Unlike prior prompt-engineering or dataset-based attacks, \textsc{JustAsk} requires no handcrafted prompts, labeled supervision, or privileged access beyond standard user interaction. It formulates extraction as an online exploration problem, using Upper Confidence Bound-based strategy selection and a hierarchical skill space spanning atomic probes and high-level orchestration. These skills exploit imperfect system-instruction generalization and inherent tensions between helpfulness and safety. Evaluated on \textbf{41} black-box commercial models across multiple providers, \textsc{JustAsk} consistently achieves full or near-complete system prompt recovery, revealing recurring design- and architecture-level vulnerabilities. Our results expose system prompts as a critical yet largely unprotected attack surface in modern agent systems.

0 Citations
0 Influential
7 Altmetric
35.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!