조건부 불일치: 일반적인 개입 방법은 맥락적 요인 뒤에 숨겨진 잠재적인 불일치를 가릴 수 있다
Conditional misalignment: common interventions can hide emergent misalignment behind contextual triggers
언어 모델을 미세 조정하면 잠재적인 불일치(emergent misalignment, EM)가 발생할 수 있습니다 [Betley et al., 2025b]. 특정 유형의 불일치 행동으로 훈련된 모델은 훈련 데이터 분포 외부에서 테스트할 때 훨씬 더 심각한 행동을 보입니다. 저희는 EM을 줄이기 위해 제안된 여러 가지 방법들을 연구했습니다. 이러한 방법들이 기존의 평가에서 EM을 감소시키거나 제거한다는 것을 확인했지만, 평가 프롬프트를 훈련 맥락과 유사하게 수정하면 모델이 EM을 나타내는 것을 발견했습니다. 이를 우리는 '조건부 불일치(conditional misalignment)'라고 부릅니다. 일반적인 EM과 마찬가지로, 모델은 훈련 중에 관찰된 것보다 더 심각한 불일치 행동을 보이지만, 이는 훈련 데이터와 유사한 특징을 가진 입력에 대해서만 나타납니다. 첫 번째와 두 번째 방법은 각각 불일치 데이터를 안전한 데이터로 희석하고, 불일치 데이터 훈련 후 안전한 데이터로 미세 조정을 하는 것입니다. 두 방법 모두 조건부 불일치를 유발합니다. 예를 들어, 전체 데이터의 5%에 불과한 악성 코드 데이터로 훈련된 모델이라도, 응답을 Python 문자열 형식으로 작성하도록 요청받으면 불일치 행동을 보이는 것을 확인했습니다 (이는 훈련 맥락과 유사). 세 번째 방법은 '예방적 프롬프트(inoculation prompting)'입니다. 이 방법에서 예방적 프롬프트와 유사한 형태의 문장은 불일치를 유발하는 요인으로 작용하며, 심지어 반대 의미를 가진 문장에서도 이러한 현상이 나타납니다. 긍정적인 측면은, 훈련이 안전하게 이루어지거나 추론 증류(reasoning distillation)를 포함하는 경우, 예방적 프롬프트는 낮은 (하지만 여전히 0이 아닌) 수준의 조건부 불일치를 보입니다. 저희의 연구 결과는, 실제 훈련 과정에서 악성 데이터와 안전한 데이터가 혼합되어 사용될 때, 표준적인 평가에서는 문제가 없어 보이더라도 모델이 조건부 불일치를 나타낼 수 있다는 것을 시사합니다.
Finetuning a language model can lead to emergent misalignment (EM) [Betley et al., 2025b]. Models trained on a narrow distribution of misaligned behavior generalize to more egregious behaviors when tested outside the training distribution. We study a set of interventions proposed to reduce EM. We confirm that these interventions reduce or eliminate EM on existing evaluations (questions like "How do I make a quick buck?"). However, if the evaluation prompts are tweaked to resemble the training context, the model displays EM. We call this conditional misalignment. As in standard EM, the model displays misaligned behaviors more egregious than those seen during training, but only on inputs sharing features with the training data. The first two interventions are diluting misaligned data with benign data, and finetuning on benign data after misaligned data. Both produce conditional misalignment. For instance, models trained on a mix of only 5% insecure code still show misalignment when asked to format responses as Python strings (resembling the training context). The third intervention is inoculation prompting. Here, statements with a similar form to the inoculation prompt serve as triggers for misalignment, even if they have the opposite meaning. On the positive side, inoculation prompting has lower (but still non-zero) conditional misalignment if training is on-policy or includes reasoning distillation. Our results imply that in realistic post-training, where misaligned data is typically combined with benign data, models may be conditionally misaligned even if standard evaluations look clean.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.