충돌하는 목표를 위한 보상 없는 정렬
Reward-free Alignment for Conflicting Objectives
직접적인 정렬 방법은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 데 점점 더 많이 사용되고 있습니다. 그러나 많은 실제 정렬 문제에서 여러 가지 상충되는 목표가 존재하며, 이러한 목표들을 단순히 결합하면 불안정한 학습과 좋지 않은 절충안으로 이어질 수 있습니다. 특히, 가중 손실 방법은 모든 목표를 동시에 개선하는 업데이트 방향을 식별하는 데 실패할 수 있으며, 기존의 다중 목표 접근 방식은 종종 명시적인 보상 모델에 의존하여 추가적인 복잡성을 도입하고 사용자가 지정한 선호도를 왜곡합니다. 본 논문의 주요 기여는 다음과 같습니다. 첫째, 우리는 충돌하는 목표를 위한 보상 없는 정렬 프레임워크(RACO)를 제안합니다. 이 프레임워크는 쌍별 선호도 데이터를 직접 활용하고, 새로운 형태의 conflict-averse gradient descent 방법을 사용하여 그래디언트 충돌을 해결합니다. 우리는 사용자가 지정한 목표 가중치를 존중하는 Pareto-critical 지점으로의 수렴을 보장하며, 또한 clipping이 두 가지 목표를 가진 경우 수렴 속도를 엄격하게 향상시킬 수 있음을 보여줍니다. 둘째, 우리는 몇 가지 휴리스틱을 사용하여 방법을 개선하고, 제안된 프레임워크가 LLM 정렬에 적합한지 입증하기 위한 실험을 수행했습니다. 다중 목표 요약 및 안전 정렬 작업에서 다양한 LLM 패밀리(Qwen 3, Llama 3, Gemma 3)에 대한 질적 및 양적 평가 결과, 제안된 방법은 기존의 다중 목표 정렬 기준보다 일관되게 더 나은 Pareto 절충안을 달성함을 보여줍니다.
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world alignment problems involve multiple conflicting objectives, where naive aggregation of preferences can lead to unstable training and poor trade-offs. In particular, weighted loss methods may fail to identify update directions that simultaneously improve all objectives, and existing multi-objective approaches often rely on explicit reward models, introducing additional complexity and distorting user-specified preferences. The contributions of this paper are two-fold. First, we propose a Reward-free Alignment framework for Conflicted Objectives (RACO) that directly leverages pairwise preference data and resolves gradient conflicts via a novel clipped variant of conflict-averse gradient descent. We provide convergence guarantees to Pareto-critical points that respect user-specified objective weights, and further show that clipping can strictly improve convergence rate in the two-objective setting. Second, we improve our method using some heuristics and conduct experiments to demonstrate the compatibility of the proposed framework for LLM alignment. Both qualitative and quantitative evaluations on multi-objective summarization and safety alignment tasks across multiple LLM families (Qwen 3, Llama 3, Gemma 3) show that our method consistently achieves better Pareto trade-offs compared to existing multi-objective alignment baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.