귀하의 언어 모델은 비밀리에 성격 하위 네트워크를 포함하고 있습니다.
Your Language Model Secretly Contains Personality Subnetworks
사람은 사회적 맥락에 따라 다양한 페르소나를 사용합니다. 대규모 언어 모델(LLM)도 다양한 페르소나와 행동을 채택하는 데 유사한 유연성을 보여줍니다. 기존의 접근 방식은 일반적으로 프롬프트, 검색 증강 생성(RAG) 또는 미세 조정과 같은 외부 지식을 통해 이러한 행동을 조정합니다. 우리는 다음과 같은 질문을 던집니다. LLM이 다양한 행동에 적응하기 위해 정말로 외부 컨텍스트나 매개변수가 필요한 것일까요, 아니면 이미 이러한 지식이 매개변수 내에 내재되어 있는 것일까요? 본 연구에서는 LLM이 이미 매개변수 공간 내에 페르소나에 특화된 하위 네트워크를 포함하고 있음을 보여줍니다. 작은 보정 데이터 세트를 사용하여 다양한 페르소나와 관련된 뚜렷한 활성화 패턴을 식별했습니다. 이러한 통계를 바탕으로, 경량 페르소나 하위 네트워크를 분리하는 마스킹 전략을 개발했습니다. 이러한 연구 결과를 바탕으로, 모델에서 반대되는 하위 네트워크를 어떻게 찾아내어 내향적-외향적과 같이 이분법적인 페르소나를 만들 수 있는지에 대해 논의합니다. 이분법적 반대 시나리오에서 분리를 더욱 강화하기 위해, 반대되는 페르소나 간의 통계적 차이에 책임이 있는 매개변수를 식별하는 대조적 가지치기 전략을 소개합니다. 우리의 방법은 학습 과정이 전혀 필요 없으며, 언어 모델의 기존 매개변수 공간에만 의존합니다. 다양한 평가 환경에서, 결과적으로 얻어지는 하위 네트워크는 외부 지식이 필요한 기준보다 훨씬 강력한 페르소나 일관성을 나타내면서도 더 효율적입니다. 우리의 연구 결과는 다양한 인간과 유사한 행동이 LLM에서 단순히 유도되는 것이 아니라, 이미 매개변수 공간 내에 내재되어 있다는 것을 시사하며, 이는 대규모 언어 모델에서 제어 가능하고 해석 가능한 개인화를 위한 새로운 관점을 제시합니다.
Humans shift between different personas depending on social context. Large Language Models (LLMs) demonstrate a similar flexibility in adopting different personas and behaviors. Existing approaches, however, typically adapt such behavior through external knowledge such as prompting, retrieval-augmented generation (RAG), or fine-tuning. We ask: do LLMs really need external context or parameters to adapt to different behaviors, or do they already have such knowledge embedded in their parameters? In this work, we show that LLMs already contain persona-specialized subnetworks in their parameter space. Using small calibration datasets, we identify distinct activation signatures associated with different personas. Guided by these statistics, we develop a masking strategy that isolates lightweight persona subnetworks. Building on the findings, we further discuss: how can we discover opposing subnetwork from the model that lead to binary-opposing personas, such as introvert-extrovert? To further enhance separation in binary opposition scenarios, we introduce a contrastive pruning strategy that identifies parameters responsible for the statistical divergence between opposing personas. Our method is entirely training-free and relies solely on the language model's existing parameter space. Across diverse evaluation settings, the resulting subnetworks exhibit significantly stronger persona alignment than baselines that require external knowledge while being more efficient. Our findings suggest that diverse human-like behaviors are not merely induced in LLMs, but are already embedded in their parameter space, pointing toward a new perspective on controllable and interpretable personalization in large language models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.