LLM 내의 긍정-흥분 하위 공간: 원형 감정 기하학 및 다중 행동 제어
Valence-Arousal Subspace in LLMs: Circular Emotion Geometry and Multi-Behavioral Control
본 연구에서는 대규모 언어 모델(LLM)의 표현 내에서 긍정-흥분(VA) 하위 공간을 식별하는 방법을 제시합니다. 211,000개의 감정 레이블이 지정된 텍스트 데이터를 활용하여, 감정 제어 벡터를 도출하고, 모델이 자체 보고한 긍정-흥분 점수를 기반으로 Ridge 회귀를 통해 PCA의 주요 구성 요소들의 선형 결합으로 VA 축을 학습합니다. 결과적으로 얻어진 VA 하위 공간은 인간의 감정 인지에 대한 기존 모델과 일관된 원형 기하학적 구조를 나타냅니다. 복구된 VA 하위 공간을 따라 투영된 결과는 44,000개의 어휘 항목에 대한 인간 크라우드 소싱 VA 평가와 상관관계를 보입니다. 또한, 이러한 축을 따라 제어를 수행하면 모델 출력의 해당 감정 차원에 대해 단조적인 변화를 유도합니다. 이러한 방향으로 제어를 수행하면 거부 및 아첨 행동에 대해 거의 단조적인 양방향 제어가 가능합니다. 즉, 흥분이 증가하면 거부가 감소하고 아첨이 증가하며, 그 반대의 경우도 마찬가지입니다. 이러한 효과는 Llama-3.1-8B, Qwen3-8B 및 Qwen3-14B 모델에서 모두 관찰되어, 다양한 아키텍처에서 일반적인 현상임을 보여줍니다. 본 연구는 이러한 효과와 이전의 감정 관련 제어에 대한 메커니즘적 설명을 제공합니다. 거부와 관련된 토큰(
We present a method to identify a valence-arousal (VA) subspace within large language model representations. From 211k emotion-labeled texts, we derive emotion steering vectors, then learn VA axes as linear combinations of their top PCA components via ridge regression on the model's self-reported valence-arousal scores. The resulting VA subspace exhibits circular geometry consistent with established models of human emotion perception. Projections along our recovered VA subspace correlate with human-crowdsourced VA ratings across 44k lexical items. Furthermore, steering generation along these axes produces monotonic shifts in the corresponding affective dimensions of model outputs. Steering along these directions also induces near-monotonic bidirectional control over refusal and sycophancy: increasing arousal decreases refusal and increases sycophancy, and vice versa. These effects replicate across Llama-3.1-8B, Qwen3-8B, and Qwen3-14B, demonstrating cross-architecture generality. We provide a mechanistic account for these effects and prior emotionally-framed controls: refusal-associated tokens ("I can't," "sorry") occupy low-arousal, negative-valence regions, so VA steering directly modulates their emission probability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.