DARC: 불일치 인식 정렬: 위험 제약 기반 디코딩
DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding
선호도 기반 정렬 방법(예: RLHF, DPO)은 일반적으로 단일 스칼라 목표를 최적화하며, 이는 다양한 인간 선호도를 암묵적으로 평균화합니다. 그러나 실제로는 체계적인 어노테이터 및 사용자 그룹 간의 불일치가 평균 보상 극대화를 취약하게 만들고, 프록시 과최적화의 위험을 증가시킵니다. 본 논문에서는 재학습 없이 추론 시에 적용 가능한 방법인 **불일치 인식 정렬: 위험 제약 기반 디코딩 (DARC)**을 제안합니다. DARC는 응답 선택을 분포적으로 견고하고 위험에 민감한 의사 결정 문제로 간주하며, 여러 선호도 샘플 또는 확장 가능한 불일치 지표를 활용하여 후보 응답을 재순위합니다. DARC는 *KL-강건성(엔트로피 기반)* 만족도 목표를 최대화하며, 평균에 대한 엔트로피 위험 프리미엄을 제한하거나 페널티를 부여하는 간단한 배포 제어 기능을 제공하여 명시적인 위험 예산을 설정할 수 있습니다. 본 논문에서는 이러한 디코딩 규칙이 원칙적인 비관주의 및 KL 기반 분포적으로 강건한 최적화와 관련되어 있음을 이론적으로 설명합니다. 정렬 벤치마크 실험 결과, DARC는 노이즈가 많고 이질적인 피드백 환경에서 불일치 및 극단적인 위험을 줄이면서도 경쟁력 있는 평균 품질을 유지하는 것을 확인했습니다.
Preference-based alignment methods (e.g., RLHF, DPO) typically optimize a single scalar objective, implicitly averaging over heterogeneous human preferences. In practice, systematic annotator and user-group disagreement makes mean-reward maximization brittle and susceptible to proxy over-optimization. We propose **Disagreement-Aware Alignment via Risk-Constrained Decoding (DARC)**, a retraining-free inference-time method that frames response selection as distributionally robust, risk-sensitive decision making. Given multiple preference samples or scalable disagreement proxies, DARC reranks candidates by maximizing a *KL-robust (entropic)* satisfaction objective, and provides simple deployment controls that cap or penalize the corresponding entropic risk premium relative to the mean, enabling explicit risk budgets without retraining. We provide theoretical characterization linking this decoding rule to principled pessimism and KL-based distributionally robust optimization. Experiments on alignment benchmarks show that DARC reduces disagreement and tail risk while maintaining competitive average quality under noisy, heterogeneous feedback.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.