LLM 능동적 정렬: 내쉬 균형 관점
LLM Active Alignment: A Nash Equilibrium Perspective
우리는 내쉬 균형(NE) 분석을 통해 대규모 언어 모델(LLM) 집단의 행동을 예측하고 조종하기 위한 게임 이론적 프레임워크를 개발합니다. 개방형 텍스트 공간에서 발생하는 균형 계산의 난해함을 피하기 위해, 우리는 각 에이전트의 행동을 인간 하위 집단들의 혼합으로 모델링합니다. 에이전트는 어떤 그룹과 정렬할지를 능동적이고 전략적으로 선택하며, 이는 해석 가능하고 행동적으로 실질적인 정책 클래스를 산출합니다. 우리는 분석적인 시스템 수준 예측을 가능하게 하기 위해 표준 오목 효용 가정을 채택하여 폐쇄형 NE 특성을 도출하고, 정렬 목표를 사회적으로 바람직한 결과로 전환하기 위한 명시적이고 실행 가능한 지침을 제공합니다. 이 방법은 RLHF와 같은 기존 정렬 파이프라인 위에 능동적 정렬 계층으로 기능합니다. 소셜 미디어 환경에서 우리는 LLM 집단(특히 추론 기반 모델)이 특정 하위 집단이 모든 LLM 에이전트에게 무시당하는 병리 현상인 '정치적 배제'를 보일 수 있음을 확인했으며, 이는 우리의 방법으로 방지할 수 있습니다. 이는 다양한 도메인에 걸쳐 다중 에이전트 LLM 역학을 조절하는 데 이 방법을 적용할 수 있다는 가능성을 보여줍니다.
We develop a game-theoretic framework for predicting and steering the behavior of populations of large language models (LLMs) through Nash equilibrium (NE) analysis. To avoid the intractability of equilibrium computation in open-ended text spaces, we model each agent's action as a mixture over human subpopulations. Agents choose actively and strategically which groups to align with, yielding an interpretable and behaviorally substantive policy class. We derive closed-form NE characterizations, adopting standard concave-utility assumptions to enable analytical system-level predictions and give explicit, actionable guidance for shifting alignment targets toward socially desirable outcomes. The method functions as an active alignment layer on top of existing alignment pipelines such as RLHF. In a social-media setting, we show that a population of LLMs, especially reasoning-based models, may exhibit political exclusion, pathologies where some subpopulations are ignored by all LLM agents, which can be avoided by our method, illustrating the promise of applying the method to regulate multi-agent LLM dynamics across domains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.