2602.03160v1 Feb 03, 2026 cs.AI

VALUEFLOW: 대규모 언어 모델에서의 다원적이고 제어 가능한 가치 기반 정렬을 향하여

VALUEFLOW: Toward Pluralistic and Steerable Value-based Alignment in Large Language Models

Sieun Hyeon
Sieun Hyeon
Citations: 26
h-index: 4
Jusang Oh
Jusang Oh
Citations: 1
h-index: 1
Jaeyoung Do
Jaeyoung Do
Citations: 100
h-index: 5
Woojin Kim
Woojin Kim
Citations: 30
h-index: 2

대규모 언어 모델(LLM)을 인간 가치의 다양한 스펙트럼에 정렬시키는 것은 여전히 핵심적인 과제입니다. 기존의 선호도 기반 방법론은 심층적인 동기 부여 원칙을 포착하지 못하는 경우가 많습니다. 가치 기반 접근법은 보다 원칙적인 경로를 제시하지만, 세 가지 한계점이 존재합니다. 추출 과정에서 위계적 구조를 무시하거나, 평가는 가치의 존재 여부만 감지할 뿐 보정된 강도는 측정하지 못하며, 통제된 강도 하에서 LLM의 제어 가능성에 대한 이해가 부족하다는 점입니다. 이러한 문제를 해결하기 위해, 우리는 보정된 강도 제어를 바탕으로 추출, 평가, 제어(steering)를 아우르는 최초의 통합 프레임워크인 VALUEFLOW를 제안합니다. 이 프레임워크는 다음 세 가지 요소로 구성됩니다. (i) 이론 내 및 이론 간 가치 구조를 포착하는 위계적 가치 임베딩 공간인 HIVES, (ii) 순위 기반 집계를 통해 도출된 강도 추정치를 포함한 대규모 가치 레이블 텍스트 자원인 가치 강도 데이터베이스(VIDB), (iii) 모델 출력을 VIDB 패널과 비교하여 일관된 강도 점수를 산출하는 앵커 기반 평가기입니다. 우리는 VALUEFLOW를 활용하여 10개 모델과 4가지 가치 이론에 걸친 포괄적인 대규모 연구를 수행하였으며, 다중 가치 제어에 있어서의 제어 가능성 비대칭 및 구성 법칙을 규명했습니다. 본 논문은 가치 강도를 평가하고 제어하기 위한 확장 가능한 인프라를 구축하여 LLM의 다원적 정렬을 진전시킵니다.

Original Abstract

Aligning Large Language Models (LLMs) with the diverse spectrum of human values remains a central challenge: preference-based methods often fail to capture deeper motivational principles. Value-based approaches offer a more principled path, yet three gaps persist: extraction often ignores hierarchical structure, evaluation detects presence but not calibrated intensity, and the steerability of LLMs at controlled intensities remains insufficiently understood. To address these limitations, we introduce VALUEFLOW, the first unified framework that spans extraction, evaluation, and steering with calibrated intensity control. The framework integrates three components: (i) HIVES, a hierarchical value embedding space that captures intra- and cross-theory value structure; (ii) the Value Intensity DataBase (VIDB), a large-scale resource of value-labeled texts with intensity estimates derived from ranking-based aggregation; and (iii) an anchor-based evaluator that produces consistent intensity scores for model outputs by ranking them against VIDB panels. Using VALUEFLOW, we conduct a comprehensive large-scale study across ten models and four value theories, identifying asymmetries in steerability and composition laws for multi-value control. This paper establishes a scalable infrastructure for evaluating and controlling value intensity, advancing pluralistic alignment of LLMs.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!