타협을 넘어: 효율적인 다중 선호도 LLM 정렬을 위한 파레토-관대한 합의
Beyond Compromise: Pareto-Lenient Consensus for Efficient Multi-Preference LLM Alignment
다양한 인간 가치에 부합하도록 LLM을 정렬하는 것은 안정적인 배포를 위해 매우 중요하며, 이는 단일 선호도 패러다임을 넘어섭니다. 기존의 다중 목적 선호도 정렬(MPA) 방법은 주로 이러한 상충 관계를 해결하기 위해 정적인 선형 스칼라화 또는 경직된 기울기 투영에 의존합니다. 그러나 이러한 방법은 엄격한 충돌 회피 또는 동시에 감소하는 경향을 강제함으로써 종종 조기에 지역 고정점에 수렴합니다. 수학적으로 안정적이지만, 이러한 지점은 모델이 일시적인 지역적 상충을 피하기 위해 잠재적인 전역 파레토 개선을 희생하는 보수적인 타협을 나타냅니다. 이러한 교착 상태를 해결하기 위해, 우리는 파레토-관대한 합의(PLC)라는 게임 이론적 프레임워크를 제안합니다. PLC는 정렬을 동적 협상 과정으로 재해석하며, 경직된 접근 방식과 달리 합의 기반의 관대한 기울기 수정 기능을 도입합니다. PLC는 충분한 우세 연합의 잉여가 있는 경우, 국지적인 성능 저하를 동적으로 허용하여 최적화 경로가 지역적으로 비최적인 균형 상태에서 벗어나 전역적으로 최적의 파레토 경계를 탐색할 수 있도록 합니다. 이론적 분석에 따르면 PLC는 교착 상태에서 벗어나고 파레토 합의 균형 상태로 점진적으로 수렴할 수 있습니다. 또한 광범위한 실험 결과, PLC는 고정된 선호도 정렬 및 전역 파레토 경계 품질 측면에서 기존 방법보다 우수한 성능을 보입니다. 이 연구는 협상 기반 정렬이 MPA의 유망한 접근 방식임을 보여줍니다. 저희 코드는 다음 링크에서 확인할 수 있습니다: https://anonymous.4open.science/r/aaa-6BB8.
Transcending the single-preference paradigm, aligning LLMs with diverse human values is pivotal for robust deployment. Contemporary Multi-Objective Preference Alignment (MPA) approaches predominantly rely on static linear scalarization or rigid gradient projection to navigate these trade-offs. However, by enforcing strict conflict avoidance or simultaneous descent, these paradigms often prematurely converge to local stationary points. While mathematically stable, these points represent a conservative compromise where the model sacrifices potential global Pareto improvements to avoid transient local trade-offs. To break this deadlock, we propose Pareto-Lenient Consensus (PLC), a game-theoretic framework that reimagines alignment as a dynamic negotiation process. Unlike rigid approaches, PLC introduces consensus-driven lenient gradient rectification, which dynamically tolerates local degradation provided there is a sufficient dominant coalition surplus, thereby empowering the optimization trajectory to escape local suboptimal equilibrium and explore the distal Pareto-optimal frontier. Theoretical analysis validates PLC can facilitate stalemate escape and asymptotically converge to a Pareto consensus equilibrium. Moreover, extensive experiments show that PLC surpasses baselines in both fixed-preference alignment and global Pareto frontier quality. This work highlights the potential of negotiation-driven alignment as a promising avenue for MPA. Our codes are available at https://anonymous.4open.science/r/aaa-6BB8.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.