대규모 언어 모델은 뚜렷하고 통합된 메커니즘을 사용하여 유해한 콘텐츠를 생성한다.
Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism
대규모 언어 모델(LLM)은 유해한 행동을 방지하기 위해 정렬 학습을 거치지만, 그 결과 얻어지는 안전 장치는 여전히 취약합니다. 공격적인 시도가 이러한 안전 장치를 쉽게 우회하며, 특정 영역에 대한 미세 조정은 광범위하게 나타나는 "예상치 못한 정렬 실패(emergent misalignment)"를 유발할 수 있습니다. 이러한 취약성이 유해성이라는 개념에 대한 근본적인 일관된 내부 구성의 부족을 반영하는지 여부는 불분명합니다. 본 연구에서는 표적 가중치 가지치기를 원인 개입 방식으로 사용하여 LLM 내의 유해성 구성에 대한 조사를 수행했습니다. 연구 결과, 유해한 콘텐츠 생성은 유해 유형 전반에 걸쳐 일반적이며, 유해한 기능과 무해한 기능과 구별되는 소수의 가중치에 의존한다는 것을 확인했습니다. 정렬된 모델은 정렬되지 않은 모델에 비해 유해 생성 가중치를 더 많이 압축하는 경향을 보였으며, 이는 정렬이 안전 장치의 표면적인 취약성에도 불구하고 내부적으로 유해한 표현을 재구성한다는 것을 시사합니다. 이러한 압축은 예상치 못한 정렬 실패를 설명합니다. 즉, 유해한 기능의 가중치가 압축되면, 해당 가중치를 특정 영역에서 활용하는 미세 조정은 광범위한 정렬 실패를 유발할 수 있습니다. 예상대로, 특정 영역에서 유해 생성 가중치를 가지치면 예상치 못한 정렬 실패가 크게 감소합니다. 주목할 점은 LLM의 유해 콘텐츠 생성 능력은 그러한 콘텐츠를 인식하고 설명하는 능력과 분리되어 있다는 것입니다. 종합적으로, 본 연구 결과는 LLM 내에서 유해성에 대한 일관된 내부 구조를 보여주며, 이는 보다 체계적인 안전 접근 방식의 기반이 될 수 있습니다.
Large language models (LLMs) undergo alignment training to avoid harmful behaviors, yet the resulting safeguards remain brittle: jailbreaks routinely bypass them, and fine-tuning on narrow domains can induce ``emergent misalignment'' that generalizes broadly. Whether this brittleness reflects a fundamental lack of coherent internal organization for harmfulness remains unclear. Here we use targeted weight pruning as a causal intervention to probe the internal organization of harmfulness in LLMs. We find that harmful content generation depends on a compact set of weights that are general across harm types and distinct from benign capabilities. Aligned models exhibit a greater compression of harm generation weights than unaligned counterparts, indicating that alignment reshapes harmful representations internally--despite the brittleness of safety guardrails at the surface level. This compression explains emergent misalignment: if weights of harmful capabilities are compressed, fine-tuning that engages these weights in one domain can trigger broad misalignment. Consistent with this, pruning harm generation weights in a narrow domain substantially reduces emergent misalignment. Notably, LLMs harmful generation capability is dissociated from how they recognize and explain such content. Together, these results reveal a coherent internal structure for harmfulness in LLMs that may serve as a foundation for more principled approaches to safety.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.