PersonaDual: 적응형 추론을 통한 개인화와 객관성의 균형
PersonaDual: Balancing Personalization and Objectivity via Adaptive Reasoning
사용자들이 LLM이 자신의 선호에 부합하기를 점점 더 기대함에 따라, 개인화된 정보의 가치가 높아지고 있습니다. 그러나 개인화된 정보는 양날의 검이 될 수 있습니다. 상호작용을 개선할 수는 있지만, 특히 질문과 어긋날 때 객관성과 사실적 정확성을 훼손할 수 있기 때문입니다. 이 문제를 완화하기 위해, 우리는 단일 모델 내에서 범용적인 객관적 추론과 개인화된 추론을 모두 지원하고 문맥에 따라 적응적으로 모드를 전환하는 프레임워크인 PersonaDual을 제안합니다. PersonaDual은 먼저 SFT를 통해 두 가지 추론 패턴을 학습한 다음, 모드 선택을 개선하기 위해 제안된 DualGRPO를 사용한 강화 학습을 통해 추가로 최적화됩니다. 객관적 및 개인화 벤치마크에 대한 실험 결과, PersonaDual은 간섭을 줄이면서 개인화의 이점을 유지하여 거의 간섭 없는 성능을 달성하고, 유용한 개인화 신호를 더 잘 활용하여 객관적 문제 해결 능력을 향상시키는 것으로 나타났습니다.
As users increasingly expect LLMs to align with their preferences, personalized information becomes valuable. However, personalized information can be a double-edged sword: it can improve interaction but may compromise objectivity and factual correctness, especially when it is misaligned with the question. To alleviate this problem, we propose PersonaDual, a framework that supports both general-purpose objective reasoning and personalized reasoning in a single model, and adaptively switches modes based on context. PersonaDual is first trained with SFT to learn two reasoning patterns, and then further optimized via reinforcement learning with our proposed DualGRPO to improve mode selection. Experiments on objective and personalized benchmarks show that PersonaDual preserves the benefits of personalization while reducing interference, achieving near interference-free performance and better leveraging helpful personalized signals to improve objective problem-solving.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.