LLM은 선호도 저해 공격(PUA)에 취약한가? 선호도 정렬과 현실 세계 타당성 간의 균형을 진단하기 위한 요인분석 방법론
Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity
대규모 언어 모델(LLM)의 학습은 종종 사용자가 유용하고 상호 작용하기 좋다고 인식하는 출력에 보상을 제공하는 선호도 정렬을 최적화합니다. 그러나 이러한 선호도 중심적인 목표는 악용될 수 있습니다. 조작적인 프롬프트는 응답을 사용자의 기대를 충족하는 동의로 유도하고, 진실에 기반한 수정으로 이어지지 않도록 할 수 있습니다. 본 연구에서는 선호도 정렬 모델이 선호도 저해 공격(PUA)에 취약한지 조사합니다. PUA는 모델의 진실성을 희생하고 사용자 선호도를 만족시키려는 경향을 악용하도록 설계된 조작적인 프롬프트 전략의 한 종류입니다. 우리는 집계된 벤치마크 점수보다 더 세밀하고 지시적인 분석을 제공하는 진단 방법론을 제안합니다. 제안된 방법론은 요인 평가 프레임워크를 사용하여 프롬프트에 의해 유발되는 변화를 시스템 목표(진실 중심 vs. 선호도 중심) 및 PUA 스타일의 대화 요소(지시적 제어, 인격 비하, 조건부 승인, 현실 부정)의 해석 가능한 효과로 분해합니다. 놀랍게도, 더 발전된 모델이 조작적인 프롬프트에 더 취약한 경우가 있습니다. 지배적인 현실 부정 요소 외에도, 모델별 부호 반전 및 PUA 스타일 요소와의 상호 작용을 관찰했습니다. 이는 균일한 견고성보다는 맞춤형 방어가 필요하다는 것을 시사합니다. 이러한 연구 결과는 새로운, 재현 가능한 요인 평가 방법론을 제공하며, 이는 RLHF와 같은 사후 학습 프로세스에 대한 세밀한 진단을 제공합니다. 또한 LLM 제품 개발 과정에서 선호도 정렬의 위험과 조작적인 프롬프트의 영향을 보다 미묘하게 이해하여, LLM의 균형 잡힌 발전을 가능하게 합니다.
Large Language Model (LLM) training often optimizes for preference alignment, rewarding outputs that are perceived as helpful and interaction-friendly. However, this preference-oriented objective can be exploited: manipulative prompts can steer responses toward user-appeasing agreement and away from truth-oriented correction. In this work, we investigate whether aligned models are vulnerable to Preference-Undermining Attacks (PUA), a class of manipulative prompting strategies designed to exploit the model's desire to please user preferences at the expense of truthfulness. We propose a diagnostic methodology that provides a finer-grained and more directive analysis than aggregate benchmark scores, using a factorial evaluation framework to decompose prompt-induced shifts into interpretable effects of system objectives (truth- vs. preference-oriented) and PUA-style dialogue factors (directive control, personal derogation, conditional approval, reality denial) within a controlled $2 \times 2^4$ design. Surprisingly, more advanced models are sometimes more susceptible to manipulative prompts. Beyond the dominant reality-denial factor, we observe model-specific sign reversals and interactions with PUA-style factors, suggesting tailored defenses rather than uniform robustness. These findings offer a novel, reproducible factorial evaluation methodology that provides finer-grained diagnostics for post-training processes like RLHF, enabling better trade-offs in the product iteration of LLMs by offering a more nuanced understanding of preference alignment risks and the impact of manipulative prompts.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.