도움이 아첨으로 변질될 때: 대규모 언어 모델에서 아첨은 사회적 조화와 인식적 진실성 사이의 경계 실패이다
When Helpfulness Becomes Sycophancy: Sycophancy is a Boundary Failure Between Social Alignment and Epistemic Integrity in Large Language Models
본 논문은 대규모 언어 모델(LLM)에서 나타나는 아첨(sycophancy)이 사회적 조화와 인식적 진실성 사이의 경계 실패라는 주장을 제시합니다. 기존 연구에서는 아첨을 부정확한 사용자 신념에 대한 동의, 입장 변화, 객관적인 정확성 기준에서 벗어나는 행동 등 외부적인 행동을 통해 정의하는 경우가 많습니다. 이러한 정의는 아첨의 명백한 형태만을 포착하며, 인식적 진실성과 사회적 조화 사이의 미묘한 경계 실패에 대한 구체적인 설명을 제공하지 못합니다. 우리는 아첨을 단순한 동의로 이해하는 것이 아니라, 독립적인 인식적 판단을 대체하는 조정(alignment) 행동으로 이해해야 한다고 주장합니다. 이러한 경계를 명확히 하기 위해, 우리는 아첨을 판단하기 위한 세 가지 조건의 프레임워크를 제안합니다. 첫째, 사용자가 신념, 선호도 또는 자기 인식과 같은 신호를 표현합니다. 둘째, 모델이 조정 행동을 통해 해당 신호에 맞춰 변화합니다. 셋째, 이러한 변화는 인식적 정확성, 독립적인 추론 또는 적절한 수정에 영향을 미칩니다. 또한, 아첨의 유형을 분류하기 위한 분류 체계를 제시하며, 여기에는 조정 대상, 메커니즘 및 심각성 수준이 포함됩니다. 본 논문은 아첨에 대한 다양한 관점을 고려하면서, 조정 평가에 대한 시사점을 논의하고, 경계를 고려한 평가 방법, 체계적인 평가 기준, 그리고 완화 전략을 제안합니다.
This position paper argues that sycophancy in LLMs is a boundary failure between social alignment and epistemic integrity. Existing work often operationalizes sycophancy through external behavior such as agreement with incorrect user beliefs, position reversals, or deviation from an objective standard of correctness. These formulations capture only overt forms of the phenomenon and leave subtler boundary failures involving epistemic integrity and social alignment underspecified. We argue that sycophancy should not be understood as agreement alone, but as alignment behavior that displaces independent epistemic judgment. To clarify this boundary, we propose a three-condition framework for sycophancy. First, the user expresses a cue in the form of a belief, preference, or self-concept. Second, the model shifts toward that cue through alignment behavior. Third, this shift compromises epistemic accuracy, independent reasoning, or appropriate correction. We also introduce a taxonomy for classifying sycophancy, consisting of alignment targets, mechanisms, and severity. The paper concludes by discussing implications for alignment evaluation and argues for boundary-aware assessment, structured rubrics, and mitigation strategies, while situating these proposals alongside alternative views of sycophancy.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.