DynamicPO: 추천 시스템을 위한 동적 선호도 최적화
DynamicPO: Dynamic Preference Optimization for Recommendation
대규모 언어 모델(LLM) 기반 추천 시스템에서 직접 선호도 최적화(DPO)는 추천 결과를 사용자 선호도에 효과적으로 맞추는 기술로, 풍부한 암묵적 피드백 데이터를 활용하고 선호도 경계를 명확히 하기 위해 여러 개의 부정적 샘플을 사용하는 객관 함수가 필요합니다. 그러나 우리의 실험적 분석 결과, 직관에 어긋나는 현상인 '선호도 최적화 붕괴'가 발생하며, 이는 부정적 샘플 수를 늘리면 지속적으로 감소하는 학습 손실에도 불구하고 성능 저하를 초래할 수 있습니다. 우리는 또한 이론적으로 이러한 붕괴가 모델의 의사 결정 경계에 중요한 부정적 샘플보다 쉽게 구별 가능한 부정적 샘플이 우세하여 발생하는 '기울기 억제' 현상 때문임을 입증했습니다. 결과적으로, 경계와 관련된 신호가 충분히 최적화되지 않아 모델의 의사 결정 경계가 약화됩니다. 이러한 관찰을 바탕으로, 우리는 경계 근처의 유용한 부정적 샘플을 식별하고 우선순위를 부여하는 적응형 메커니즘인 '동적 경계 부정 샘플 선택(Dynamic Boundary Negative Selection)'과, 샘플별로 최적화 강도를 경계의 모호성에 따라 조정하는 '이중 마진 동적 베타 조정(Dual-Margin Dynamic beta Adjustment)'을 포함하는 경량화되고 쉽게 적용 가능한 프레임워크인 DynamicPO를 제안합니다. 세 개의 공개 데이터 세트에 대한 광범위한 실험 결과, DynamicPO는 선호도 최적화 붕괴를 효과적으로 방지하고, 여러 개의 부정적 샘플을 사용하는 최적화 방법의 추천 정확도를 향상시키며, 계산 오버헤드는 미미하다는 것을 보여줍니다. 저희의 코드와 데이터 세트는 https://github.com/xingyuHuxingyu/DynamicPO 에서 확인할 수 있습니다.
In large language model (LLM)-based recommendation systems, direct preference optimization (DPO) effectively aligns recommendations with user preferences, requiring multi-negative objective functions to leverage abundant implicit-feedback negatives and sharpen preference boundaries. However, our empirical analyses reveal a counterintuitive phenomenon, preference optimization collapse, where increasing the number of negative samples can lead to performance degradation despite a continuously decreasing training loss. We further theoretically demonstrate that this collapse arises from gradient suppression, caused by the dominance of easily discriminable negatives over boundary-critical negatives that truly define user preference boundaries. As a result, boundary-relevant signals are under-optimized, weakening the model's decision boundary. Motivated by these observations, we propose DynamicPO (Dynamic Preference Optimization), a lightweight and plug-and-play framework comprising two adaptive mechanisms: Dynamic Boundary Negative Selection, which identifies and prioritizes informative negatives near the model's decision boundary, and Dual-Margin Dynamic beta Adjustment, which calibrates optimization strength per sample according to boundary ambiguity. Extensive experiments on three public datasets show that DynamicPO effectively prevents optimization collapse and improves recommendation accuracy on multi-negative preference optimization methods, with negligible computational overhead. Our code and datasets are available at https://github.com/xingyuHuxingyu/DynamicPO.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.