2605.06196v1 May 07, 2026 cs.AI

세분화 축: 언어 모델에서 사회적 역할에 대한 미시-거시 잠재 방향

The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

Xiachong Feng
Xiachong Feng
Citations: 837
h-index: 15
Chonghan Qin
Chonghan Qin
The University of Hong Kong
Citations: 37
h-index: 3
Lingpeng Kong
Lingpeng Kong
Citations: 351
h-index: 7
Ziyun Song
Ziyun Song
Citations: 11
h-index: 2
Jing Xiong
Jing Xiong
Citations: 41
h-index: 2
Xiaocheng Feng
Xiaocheng Feng
Citations: 0
h-index: 0

대규모 언어 모델(LLM)은 개인부터 기관까지 다양한 사회적 역할을 수행하도록 훈련되지만, 이러한 역할의 세분화 정도, 즉 미시적인 개인 경험부터 거시적인 조직, 기관 또는 국가적 수준의 추론까지, 모델 내부 표현에 어떻게 반영되는지는 명확하지 않습니다. 본 연구에서는 LLM이 이러한 세분화 정도를 실제로 인코딩하고 있음을 보여줍니다. 우리는 대비를 기반으로 정의된 '세분화 축'을, 거시적 역할과 미시적 역할의 평균 은닉 상태 차이로 정의했습니다. Qwen3-8B 모델에서 이 축은 역할 표현 공간의 주성분(PC1)과 0.972의 코사인 유사도를 가지며, 분산의 52.6%를 차지합니다. 이는 세분화 정도가 프롬프트에 의해 유도되는 사회적 역할을 구성하는 주요 기하학적 축임을 나타냅니다. 우리는 다섯 가지 세분화 수준에 걸쳐 75개의 사회적 역할을 구성하고, 동일한 질문과 프롬프트 변형에 대한 91,200개의 역할 기반 응답을 수집했습니다. 그런 다음 역할 수준의 은닉 상태를 추출하여 이 축에 투영했습니다. 역할 투영은 모든 다섯 가지 수준에서 단조적으로 증가하며, 레이어, 프롬프트 변형, 엔드포인트 정의, 보류된 데이터 세트 및 점수 필터링된 하위 집합에 걸쳐 안정적이며, Llama-3.1-8B-Instruct 모델로도 전이됩니다. 이 축은 인과적으로도 관련이 있습니다. 이 축을 따라 활성화를 조작하면 응답의 세분화 정도가 예측된 방향으로 변경됩니다. 예를 들어, Llama 모델은 긍정적인 조작을 통해 국소적인 응답을 허용하는 프롬프트에서 2.00에서 3.17로 5점 척도에서 거시적 수준으로 이동합니다. 두 모델은 제어 가능성에서 차이를 보이며, 이는 조작이 각 모델의 기본 작동 방식에 따라 달라짐을 시사합니다. 전반적으로, 본 연구의 결과는 사회적 역할의 세분화 정도가 단순한 스타일적 특징이 아니라, 역할 기반 언어 모델의 행동에서 구조화되고, 정렬되며, 인과적으로 조작 가능한 잠재적 방향임을 시사합니다.

Original Abstract

Large language models (LLMs) are routinely prompted to take on social roles ranging from individuals to institutions, yet it remains unclear whether their internal representations encode the granularity of such roles, from micro-level individual experience to macro-level organizational, institutional, or national reasoning. We show that they do. We define a contrast-based Granularity Axis as the difference between mean macro- and micro-role hidden states. In Qwen3-8B, this axis aligns with the principal axis (PC1) of the role representation space at cosine 0.972 and accounts for 52.6% of its variance, indicating that granularity is the dominant geometric axis organizing prompted social roles. We construct 75 social roles across five granularity levels and collect 91,200 role-conditioned responses over shared questions and prompt variants, then extract role-level hidden states and project them onto the axis. Role projections increase monotonically across all five levels, remain stable across layers, prompt variants, endpoint definitions, held-out splits, and score-filtered subsets, and transfer to Llama-3.1-8B-Instruct. The axis is also causally relevant: activation steering along it shifts response granularity in the predicted direction, with Llama moving from 2.00 to 3.17 on a five-point macro scale under positive steering on prompts that admit local responses. The two models differ in controllability, suggesting that steering depends on each model's default operating regime. Overall, our findings suggest that social role granularity is not merely a stylistic surface feature, but a structured, ordered, and causally manipulable latent direction in role-conditioned language model behavior.

0 Citations
0 Influential
7.5 Altmetric
37.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!