CoNRec: LLM을 활용한 문맥 인지 부정 추천 시스템
CoNRec: Context-Discerning Negative Recommendation with LLMs
사용자가 무엇을 좋아하는지는 비교적 명확하지만, 사용자가 무엇을 싫어하는지는 여전히 어려운 문제이며, 충분히 연구되지 않았습니다. 사용자들의 부정적인 선호도에 대한 연구는 현대 추천 시스템에서 점점 더 중요해지고 있습니다. 많은 플랫폼들이 명시적인 부정 피드백 메커니즘을 도입하고, 이러한 신호를 활용하여 추천 모델을 개선하고 있습니다. 전통적인 비즈니스 지표 외에도, 부정 피드백 비율과 같은 사용자 경험 중심 지표가 시스템 성능을 평가하는 데 중요한 역할을 합니다. 그러나 대부분의 기존 접근 방식은 부정 피드백을 긍정적인 추천을 강화하기 위한 보조 신호로 활용하며, 부정적인 관심사를 직접적으로 모델링하는 데에는 충분한 관심을 기울이지 않습니다. 이는 오프라인 애플리케이션에서 매우 유용할 수 있습니다. 또한, 부정 피드백 데이터의 본질적인 희소성으로 인해, 모델은 종종 긍정적인 피드백의 지배적인 영향으로 인해 발생하는 문맥 이해의 편향을 겪습니다. 이러한 문제점을 해결하기 위해, 우리는 부정 피드백 모델링을 위한 최초의 대규모 언어 모델 프레임워크를 제안하며, 특별히 설계된 문맥 인지 모듈을 포함합니다. 텍스트 기반 아이템 설명을 의미 기반 ID 표현으로 대체하고, LLM이 부정 피드백 뒤에 숨겨진 의미적 문맥을 더 잘 이해하도록 돕는 아이템 레벨 정렬 작업을 도입했습니다. 또한, 모델이 긍정적 및 부정적 행동적 문맥 활용을 동적으로 균형을 맞출 수 있도록 Progressive GRPO 학습 방법을 설계했습니다. 더불어, 우리의 연구는 기존의 다음 부정 아이템 예측 목표와 사용자의 실제 부정적인 선호도 사이에 근본적인 불일치가 있으며, 이는 시스템의 추천 순서에 크게 영향을 받는다는 것을 밝혀냈습니다. 이를 완화하기 위해, 우리는 다일 기간의 미래 부정 피드백과 그 협업 신호에 기반한 새로운 보상 함수와 평가 지표를 제안합니다.
Understanding what users like is relatively straightforward; understanding what users dislike, however, remains a challenging and underexplored problem. Research into users' negative preferences has gained increasing importance in modern recommendation systems. Numerous platforms have introduced explicit negative feedback mechanisms and leverage such signals to refine their recommendation models. Beyond traditional business metrics, user experience-driven metrics, such as negative feedback rates, have become critical indicators for evaluating system performance. However, most existing approaches primarily use negative feedback as an auxiliary signal to enhance positive recommendations, paying little attention to directly modeling negative interests, which can be highly valuable in offline applications. Moreover, due to the inherent sparsity of negative feedback data, models often suffer from context understanding biases induced by positive feedback dominance. To address these challenges, we propose the first large language model framework for negative feedback modeling with special designed context-discerning modules. We use semantic ID Representation to replace text-based item descriptions and introduce an item-level alignment task that enhances the LLM's understanding of the semantic context behind negative feedback. Furthermore, we design a Progressive GRPO training paradigm that enables the model to dynamically balance the positive and negative behavioral context utilization. Besides, our investigation further reveals a fundamental misalignment between the conventional next-negative-item prediction objective and users' true negative preferences, which is heavily influenced by the system's recommendation order. To mitigate this, we propose a novel reward function and evaluation metric grounded in multi-day future negative feedback and their collaborative signals.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.