개인화가 잘못 인도할 때: 개인화된 LLM에서 발생하는 환각 현상 이해 및 완화 방안
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs
개인화된 대규모 언어 모델(LLM)은 사용자 만족도를 높이기 위해 모델의 동작을 개별 사용자에게 맞게 조정하지만, 개인화는 의도치 않게 사실 기반 추론을 왜곡할 수 있습니다. 본 연구에서는 개인화된 LLM이 사실 관련 질문에 직면했을 때, 모델이 사용자의 과거 기록에 맞춰 답변을 생성하는 현상을 발견했습니다. 이는 객관적인 진실과 다른 답변을 생성하여, 개인화로 인한 환각 현상을 유발하며 사실적 신뢰도를 저하시키고 잘못된 믿음을 확산시킬 수 있습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 개인화된 동작을 유지하면서 개인화로 인한 사실 왜곡을 완화하는 경량 추론 방식인 Factuality-Preserving Personalized Steering (FPPS)를 제안합니다. 또한, 개인화 환경에서 사실 기반 및 개인화된 질문 응답을 동시에 평가하도록 설계된 최초의 벤치마크인 PFQABench를 소개합니다. 다양한 LLM 아키텍처와 개인화 방법으로 수행한 실험 결과, FPPS는 사실 정확도를 크게 향상시키면서도 개인화된 성능을 유지하는 것으로 나타났습니다.
Personalized large language models (LLMs) adapt model behavior to individual users to enhance user satisfaction, yet personalization can inadvertently distort factual reasoning. We show that when personalized LLMs face factual queries, there exists a phenomenon where the model generates answers aligned with a user's prior history rather than the objective truth, resulting in personalization-induced hallucinations that degrade factual reliability and may propagate incorrect beliefs, due to representational entanglement between personalization and factual representations. To address this issue, we propose Factuality-Preserving Personalized Steering (FPPS), a lightweight inference-time approach that mitigates personalization-induced factual distortions while preserving personalized behavior. We further introduce PFQABench, the first benchmark designed to jointly evaluate factual and personalized question answering under personalization. Experiments across multiple LLM backbones and personalization methods show that FPPS substantially improves factual accuracy while maintaining personalized performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.