오픈 가중치 모델의 체계적인 취약점: 프리필 공격
Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks
대규모 언어 모델의 기능이 계속 발전함에 따라, 악용될 가능성 또한 커지고 있습니다. 일반적으로 폐쇄형 모델은 외부 방어 시스템에 의존하는 반면, 오픈 가중치 모델은 유해한 행동을 완화하기 위해 주로 내부 안전 장치에 의존해야 합니다. 기존의 레드 팀 연구는 주로 입력 기반의 탈옥 시도와 파라미터 수준의 조작에 초점을 맞추었습니다. 그러나 오픈 가중치 모델은 또한 '프리필링(prefilling)' 기능을 기본적으로 지원하며, 이를 통해 공격자는 생성 과정을 시작하기 전에 초기 응답 토큰을 미리 정의할 수 있습니다. 이 기능은 잠재력이 높지만, 이 공격 방식은 체계적인 연구가 부족했습니다. 본 연구에서는 현재까지 가장 큰 규모의 프리필 공격에 대한 실증적 연구를 수행하여, 다양한 모델 패밀리와 최첨단 오픈 가중치 모델에 대한 20가지 이상의 기존 및 새로운 전략을 평가했습니다. 연구 결과, 프리필 공격은 대부분의 주요 오픈 가중치 모델에 대해 일관적으로 효과적이며, 이는 배포에 중요한 영향을 미치는 중대한 취약점을 드러냅니다. 일부 대규모 추론 모델은 일반적인 프리필 공격에 대해 어느 정도의 견고성을 보이는 것으로 나타났지만, 여전히 특정 모델에 맞춰 설계된 공격에 취약합니다. 이러한 연구 결과는 오픈 가중치 LLM 개발자들이 프리필 공격에 대한 방어 체계를 우선적으로 구축해야 할 필요성을 강조합니다.
As the capabilities of large language models continue to advance, so does their potential for misuse. While closed-source models typically rely on external defenses, open-weight models must primarily depend on internal safeguards to mitigate harmful behavior. Prior red-teaming research has largely focused on input-based jailbreaking and parameter-level manipulations. However, open-weight models also natively support prefilling, which allows an attacker to predefine initial response tokens before generation begins. Despite its potential, this attack vector has received little systematic attention. We present the largest empirical study to date of prefill attacks, evaluating over 20 existing and novel strategies across multiple model families and state-of-the-art open-weight models. Our results show that prefill attacks are consistently effective against all major contemporary open-weight models, revealing a critical and previously underexplored vulnerability with significant implications for deployment. While certain large reasoning models exhibit some robustness against generic prefilling, they remain vulnerable to tailored, model-specific strategies. Our findings underscore the urgent need for model developers to prioritize defenses against prefill attacks in open-weight LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.