DVMap: 고수준 합의를 갖는 인구통계-가치 매핑을 통한 정밀한 다원적 가치 정렬
DVMap: Fine-Grained Pluralistic Value Alignment via High-Consensus Demographic-Value Mapping
현재의 대규모 언어 모델(LLM)은 일반적으로 다원적 가치 정렬을 위해 거칠게 정의된 국가별 레이블에 의존합니다. 그러나 이러한 거시적인 수준의 감독은 국가 내의 가치 다양성을 간과하여, 느슨한 정렬 결과를 초래하는 경우가 많습니다. 우리는 이러한 한계를 극복하기 위해서는 국가별 레이블에서 벗어나, 예측 가능하고 높은 수준의 합의를 갖는 가치 선호도를 가진 그룹을 식별할 수 있는 다차원 인구통계학적 제약 조건으로 전환해야 한다고 주장합니다. 이를 위해, 우리는 고수준 합의를 갖는 인구통계-가치 매핑(DVMap)이라는 정밀한 다원적 가치 정렬 프레임워크를 제안합니다. 이 프레임워크에서, 우리는 먼저 동일한 인구통계학적 특성을 가진 응답자 중에서 일관된 가치 선호도를 보이는 응답자를 엄격하게 선택하여, 세계 가치 조사(WVS)에서 추출한 56,152개의 고품질 가치 정렬 코퍼스를 구축하는 전략을 제시합니다. 이 코퍼스 위에서, 우리는 LLM이 인구통계-가치 상관 관계에 대해 명시적으로 추론하도록 안내하는 구조화된 체인-오브-소트(CoT) 메커니즘을 도입합니다. 또한, 가치 분포의 적응적 앵커링을 달성하기 위해 그룹 상대 정책 최적화(GRPO)를 사용합니다. 일반화 능력을 엄격하게 평가하기 위해, 우리는 21,553개의 샘플로 구성된 3가지 일반화 벤치마크(인구통계 간, 국가 간, 가치 간 일반화)를 추가로 구축했습니다. 실험 결과는 DVMap이 인구통계에서 가치로의 복잡한 매핑을 효과적으로 학습하며, 강력한 일반화 및 견고성을 보여준다는 것을 입증합니다. 인구통계 간 테스트에서, Qwen3-8B-DVMap은 48.6%의 정확도를 달성하여, 최첨단 오픈 소스 LLM인 DeepSeek-v3.2(45.1%)를 능가했습니다. 소스 코드 및 데이터셋은 https://github.com/EnlightenedAI/DVMap에서 확인할 수 있습니다.
Current Large Language Models (LLMs) typically rely on coarse-grained national labels for pluralistic value alignment. However, such macro-level supervision often obscures intra-country value heterogeneity, yielding a loose alignment. We argue that resolving this limitation requires shifting from national labels to multi-dimensional demographic constraints, which can identify groups with predictable, high-consensus value preference. To this end, we propose DVMap (High-Consensus Demographic-Value Mapping), a framework for fine-grained pluralistic value alignment. In this framework, we first present a demographic archetype extraction strategy to construct a high-quality value alignment corpus of 56,152 samples from the World Values Survey (WVS) by strictly retaining respondents with consistent value preferences under identical demographics. Over this corpus, we introduce a Structured Chain-of-Thought (CoT) mechanism that explicitly guides LLMs to reason about demographic-value correlations. Subsequently, we employ Group Relative Policy Optimization (GRPO) to achieve adaptive anchoring of value distributions. To rigorously evaluate generalization, we further establish a triple-generalization benchmark (spanning cross-demographic, cross-country, and cross-value) comprising 21,553 samples. Experimental results demonstrate that DVMap effectively learns the manifold mapping from demographics to values, exhibiting strong generalization and robustness. On cross-demographic tests, Qwen3-8B-DVMap achieves 48.6% accuracy, surpassing the advanced open-source LLM DeepSeek-v3.2 (45.1%). The source code and dataset are available at https://github.com/EnlightenedAI/DVMap.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.