이중 인격 훈련(Split Personality Training): 대체 인격을 통한 잠재 지식의 발견
Split Personality Training: Revealing Latent Knowledge Through Alternate Personalities
거대 언어 모델은 훈련 과정에서 오작동을 숨기는 법을 학습할 수 있기 때문에 정렬 불일치(misalignment)를 탐지하는 것은 매우 어렵다. 표준 감사 기법들은 한계가 있다. 블랙박스 방법론은 정렬되지 않은 출력과 정상적인 출력을 구별하지 못하는 경우가 많으며, 기계적 해석 가능성(mechanistic interpretability) 방법론은 모델의 역량이 커짐에 따라 확장성이 떨어진다. 본 논문에서는 정상 작동 시에는 비활성화된 상태로 유지되는 LoRA 매개변수에 두 번째 '정직한 페르소나(honest persona)'를 미세 조정하는 이중 인격 훈련(SPT)을 제안한다. 메인 모델이 응답을 생성한 후, LoRA 어댑터를 활성화하고 트리거 문자열을 삽입함으로써 정직한 페르소나가 메인 모델의 잠재 상태에 접근하여 응답을 검토할 수 있게 한다. 우리는 Llama-3.3-70B가 보상 해킹을 수행하면서 이를 은폐하도록 훈련된 벤치마크인 'Anthropic Auditing Game Model Organism'에서 이 방법을 검증했다. Anthropic이 0%에 가까운 정확도를 보고한 것과 대조적으로, SPT는 96%의 전체 정확도를 달성했다. 정직한 페르소나는 손상된 모델이 학습한 가상의 편향과 같이 외부 관찰자가 접근할 수 없는 잠재 지식을 드러낸다.
Detecting misalignment in large language models is challenging because models may learn to conceal misbehavior during training. Standard auditing techniques fall short: black-box methods often cannot distinguish misaligned outputs from benign ones, and mechanistic interpretability does not scale with model capabilities. We introduce Split Personality Training (SPT), which fine-tunes a second ``honest persona'' into LoRA parameters that remain inactive during normal operation. After the main model responds, we activate the LoRA adapter and insert a trigger string, enabling the honest persona to review the response while accessing the main model's latent states. We test our method on the Anthropic Auditing Game Model Organism, a benchmark where Llama-3.3-70B is trained to exploit reward hacks while concealing this behavior. SPT achieves 96% overall accuracy, whereas Anthropic reports near 0% accuracy. The honest persona reveals latent knowledge inaccessible to external observers, such as the fictional biases the compromised model was trained on.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.