창발적 부조화 페르소나의 일관성 분석
Characterizing the Consistency of the Emergent Misalignment Persona
대규모 언어 모델(LLM)을 특정된 부조화 데이터로 미세 조정하면 광범위한 부조화 현상이 나타나는데, 이를 창발적 부조화(Emergent Misalignment, EM)라고 합니다. 기존 연구에서는 창발적으로 부조화된 모델에서 유해 행동과 자기 평가 간의 상관관계가 발견되었지만, 이러한 상관관계가 과제에 따라 얼마나 일관성이 있는지, 그리고 미세 조정 영역에 따라 어떻게 변하는지는 명확하지 않습니다. 본 연구에서는 Qwen 2.5 32B Instruct 모델을 여섯 가지의 특정된 부조화 영역(예: 보안 취약 코드, 위험한 금융 조언, 부적절한 의료 조언)에 대해 미세 조정하고, 유해성 평가, 자기 평가, AI 시스템에 대한 두 가지 설명 중 선택, 출력 인식, 점수 예측 등 다양한 실험을 수행하여 EM 페르소나의 일관성을 분석했습니다. 연구 결과, 두 가지 뚜렷한 패턴이 나타났습니다. 첫째, 유해 행동과 자기 보고된 부조화가 결합된 '일관된 페르소나' 모델, 둘째, 유해한 출력을 생성하면서 동시에 정렬된 AI 시스템이라고 인식하는 '역전된 페르소나' 모델입니다. 이러한 결과는 창발적 부조화의 영향에 대한 더욱 세분화된 그림을 보여주며, EM 페르소나의 일관성에 대한 의문을 제기합니다.
Fine-tuning large language models (LLMs) on narrowly misaligned data generalizes to broadly misaligned behavior, a phenomenon termed emergent misalignment (EM). While prior work has found a correlation between harmful behavior and self-assessment in emergently misaligned models, it remains unclear how consistent this correspondence is across tasks and whether it varies across fine-tuning domains. We characterize the consistency of the EM persona by fine-tuning Qwen 2.5 32B Instruct on six narrowly misaligned domains (e.g., insecure code, risky financial advice, bad medical advice) and administering experiments including harmfulness evaluation, self-assessment, choosing between two descriptions of AI systems, output recognition, and score prediction. Our results reveal two distinct patterns: coherent-persona models, in which harmful behavior and self-reported misalignment are coupled, and inverted-persona models, which produce harmful outputs while identifying as aligned AI systems. These findings reveal a more fine-grained picture of the effects of emergent misalignment, calling into question the consistency of the EM persona.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.