2601.12758v1 Jan 19, 2026 cs.CL

VISPA: 자동 값 선택 및 활성화를 통한 다원적 정렬

VISPA: Pluralistic Alignment via Automatic Value Selection and Activation

Preslav Nakov
Preslav Nakov
Citations: 7,455
h-index: 47
Heng Ji
Heng Ji
Citations: 11
h-index: 1
Usman Naseem
Usman Naseem
Citations: 5
h-index: 1
Anudeex Shetty
Anudeex Shetty
Citations: 31
h-index: 3
Shen Zheng
Shen Zheng
Citations: 314
h-index: 7
Jiayou Zhong
Jiayou Zhong
Citations: 1
h-index: 1

대규모 언어 모델이 점점 더 중요한 영역에서 사용됨에 따라, 모델의 결과물이 평균적인 인간 선호도를 반영하는 것이 아니라 다양한 관점을 반영하는 것이 필수적입니다. 그러나 이러한 다원성을 달성하는 것은 여전히 어려운 과제입니다. 기존의 접근 방식은 제한된 가치를 고려하거나 프롬프트 수준의 개입에 의존하며, 가치 제어 및 표현 능력이 부족합니다. 이러한 문제를 해결하기 위해, 우리는 VISPA라는 학습이 필요 없는 다원적 정렬 프레임워크를 소개합니다. VISPA는 동적인 값 선택과 내부 모델 활성화 제어를 통해 가치 표현에 대한 직접적인 제어를 가능하게 합니다. 다양한 모델과 평가 환경에서 수행한 광범위한 실험 연구 결과, VISPA는 의료 분야를 포함한 모든 영역에서 다원적 정렬 모드에서 뛰어난 성능을 보임을 확인했습니다. 추가 분석 결과, VISPA는 다양한 제어 시작점, 모델 및/또는 가치와 함께 적용 가능합니다. 이러한 결과는 다원적 정렬이 내부 활성화 메커니즘을 통해 달성될 수 있으며, 이는 모든 사람에게 서비스를 제공하는 언어 모델을 위한 확장 가능한 경로를 제시한다는 것을 시사합니다.

Original Abstract

As large language models are increasingly used in high-stakes domains, it is essential that their outputs reflect not average} human preference, rather range of varying perspectives. Achieving such pluralism, however, remains challenging. Existing approaches consider limited values or rely on prompt-level interventions, lacking value control and representation. To address this, we introduce VISPA, a training-free pluralistic alignment framework, that enables direct control over value expression by dynamic selection and internal model activation steering. Across extensive empirical studies spanning multiple models and evaluation settings, we show VISPA is performant across all pluralistic alignment modes in healthcare and beyond. Further analysis reveals VISPA is adaptable with different steering initiations, model, and/or values. These results suggest that pluralistic alignment can be achieved through internal activation mechanisms, offering a scalable path toward language models that serves all.

0 Citations
0 Influential
23.5 Altmetric
117.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!