2605.02751v1 May 04, 2026 cs.AI

암묵적 특성을 활용한 조정으로 인한 부조화 전파 완화

Mitigating Misalignment Contagion by Steering with Implicit Traits

K. Murugesan
K. Murugesan
Citations: 1,121
h-index: 18
Maria Chang
Maria Chang
Citations: 33
h-index: 3
Ronny Luss
Ronny Luss
Citations: 10
h-index: 2
K. Ramamurthy
K. Ramamurthy
Citations: 11
h-index: 2
Djallel Bouneffouf
Djallel Bouneffouf
Citations: 2,658
h-index: 26
Miao Liu
Miao Liu
Citations: 76
h-index: 5

언어 모델(LM)은 점점 더 많은 고위험, 다중 에이전트 환경에서 사용되고 있으며, 이 환경에서는 지침을 따르고 가치 정렬을 유지하는 것이 매우 중요합니다. 대부분의 정렬 연구는 단일 LM과 단일 사용자 간의 상호 작용에 초점을 맞추고 있으며, 다중 턴 상호 작용에서 여러 LM 사이의 부조화된 행동이 확산될 위험에 대한 고려는 부족합니다. 본 연구에서는 여러 LM이 다중 턴 대화형 사회적 딜레마 게임에 참여하는 과정에서 이러한 현상, 즉 '부조화 전파'의 증거를 발견했습니다. 구체적으로, 게임 플레이 후 LM이 더욱 반사회적인 경향을 보이는 것을 확인했으며, 다른 참여자들이 악의적으로 행동하도록 유도될 때 이러한 효과가 더욱 심화되는 것을 확인했습니다. 우리는 이러한 부조화 전파를 완화하기 위한 다양한 조정 기술을 탐색했으며, LM의 시스템 프롬프트를 강화하는 것만으로는 충분하지 않으며 오히려 해로울 수 있다는 것을 발견했습니다. 대신, 우리는 '암묵적 특성'을 활용한 조정 기법을 제안합니다. 이 기법은 LM의 초기 특성을 강화하는 진술을 포함하는 시스템 프롬프트를 간헐적으로 주입하는 방식으로, 시스템 프롬프트 반복보다 LM이 초기 사회적 행동을 유지하는 데 더 효과적입니다. 중요한 점은 이 방법은 모델 파라미터나 내부 모델 상태에 대한 접근이 필요하지 않으므로, 복잡한 다중 에이전트 워크플로우가 블랙박스 모델을 사용하여 설계되는 점점 더 일반적인 사용 사례에 적합합니다.

Original Abstract

Language models (LMs) are increasingly used in high-stakes, multi-agent settings, where following instructions and maintaining value alignment are critical. Most alignment research focuses on interactions between a single LM and a single user, failing to address the risk of misaligned behavior spreading between multiple LMs in multi-turn interactions. We find evidence of this phenomenon, which we call misalignment contagion, across multiple LMs as they engage multi-turn conversational social dilemma games. Specifically, we find that LMs become more anti-social after gameplay and that this effect is intensified when other players are steered to act maliciously. We explore different steering techniques to mitigate such misalignment contagion and find that reinforcing an LM's system prompt is insufficient and often harmful. Instead, we propose steering with implicit traits: a technique that intermittently injects system prompts with statements that reinforce an LMs initial traits and is more effective than system prompt repetition at keeping models in line with their initial pro-social behaviors. Importantly, this method does not require access to model parameters or internal model states, making it suitable for increasingly common use cases where complex multi-agent workflows are being designed with black box models.

1 Citations
0 Influential
13 Altmetric
66.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!