PERSONA: 활성화 벡터 대수를 통한 동적이고 조합적인 추론 시점 성격 제어
PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra
대규모 언어 모델의 성격 제어를 위한 기존 방법들은 정적 프롬프팅이나 비용이 많이 드는 미세 조정에 의존하여, 인간 특성의 동적이고 조합적인 본질을 포착하지 못한다. 우리는 활성화 공간 내에서 성격 벡터를 직접 조작하여 미세 조정 수준의 성능을 달성하는 훈련이 필요 없는 프레임워크인 PERSONA를 소개한다. 우리의 핵심 통찰은 성격 특성이 대수 연산을 지원하는 모델의 표현 공간 내에서 추출 가능하고 거의 직교하는 방향으로 나타난다는 것이다. 이 프레임워크는 세 단계로 작동한다. 'Persona-Base'는 대조 활성화 분석을 통해 직교 특성 벡터를 추출하고, 'Persona-Algebra'는 벡터 산술(강도 조절을 위한 스칼라 곱, 조합을 위한 덧셈, 억제를 위한 뺄셈)을 통해 정밀한 제어를 가능하게 하며, 'Persona-Flow'는 추론 중에 이러한 벡터들을 동적으로 구성하여 문맥 인식 적응을 달성한다. PersonalityBench에서 우리의 접근 방식은 어떠한 그래디언트 업데이트 없이도 평균 9.60점을 달성하여, 지도 미세 조정의 상한선인 9.61점에 근접했다. 또한 동적 성격 적응을 위해 제안한 Persona-Evolve 벤치마크에서 다양한 모델 제품군에 걸쳐 최대 91%의 승률을 달성했다. 이러한 결과는 LLM 성격의 측면들이 수학적으로 다룰 수 있음을 입증하며, 해석 가능하고 효율적인 행동 제어를 위한 새로운 방향을 제시한다.
Current methods for personality control in Large Language Models rely on static prompting or expensive fine-tuning, failing to capture the dynamic and compositional nature of human traits. We introduce PERSONA, a training-free framework that achieves fine-tuning level performance through direct manipulation of personality vectors in activation space. Our key insight is that personality traits appear as extractable, approximately orthogonal directions in the model's representation space that support algebraic operations. The framework operates through three stages: Persona-Base extracts orthogonal trait vectors via contrastive activation analysis; Persona-Algebra enables precise control through vector arithmetic (scalar multiplication for intensity, addition for composition, subtraction for suppression); and Persona-Flow achieves context-aware adaptation by dynamically composing these vectors during inference. On PersonalityBench, our approach achieves a mean score of 9.60, nearly matching the supervised fine-tuning upper bound of 9.61 without any gradient updates. On our proposed Persona-Evolve benchmark for dynamic personality adaptation, we achieve up to 91% win rates across diverse model families. These results provide evidence that aspects of LLM personality are mathematically tractable, opening new directions for interpretable and efficient behavioral control.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.