PersonaDual: 적응적 추론을 통한 개인화와 객관성의 균형
PersonaDual: Balancing Personalization and Objectivity via Adaptive Reasoning
사용자들이 점점 더 LLM이 자신의 선호도에 부합하기를 기대함에 따라, 개인화된 정보는 매우 중요해지고 있습니다. 그러나 개인화된 정보는 양날의 검이 될 수 있는데, 상호 작용을 개선할 수 있지만, 특히 질문과 일치하지 않을 때 객관성과 사실 정확성을 저해할 수 있습니다. 이러한 문제를 완화하기 위해, 우리는 일반적인 객관적 추론과 개인화된 추론을 하나의 모델에서 지원하고, 문맥에 따라 모드를 적응적으로 전환하는 프레임워크인 PersonaDual을 제안합니다. PersonaDual은 먼저 SFT를 통해 두 가지 추론 패턴을 학습하고, 그 후 제안하는 DualGRPO를 사용한 강화 학습을 통해 모드 선택을 더욱 개선합니다. 객관적 및 개인화된 벤치마크 실험 결과, PersonaDual은 개인화의 장점을 유지하면서 간섭을 줄이고, 거의 간섭 없는 성능을 달성하며, 유용한 개인화된 정보를 활용하여 객관적인 문제 해결 능력을 향상시키는 것을 보여줍니다.
As users increasingly expect LLMs to align with their preferences, personalized information becomes valuable. However, personalized information can be a double-edged sword: it can improve interaction but may compromise objectivity and factual correctness, especially when it is misaligned with the question. To alleviate this problem, we propose PersonaDual, a framework that supports both general-purpose objective reasoning and personalized reasoning in a single model, and adaptively switches modes based on context. PersonaDual is first trained with SFT to learn two reasoning patterns, and then further optimized via reinforcement learning with our proposed DualGRPO to improve mode selection. Experiments on objective and personalized benchmarks show that PersonaDual preserves the benefits of personalization while reducing interference, achieving near interference-free performance and better leveraging helpful personalized signals to improve objective problem-solving.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.