LLM의 가정을 명시하여 아첨 행위를 설명하고 제어하는 방법
Verbalizing LLMs' assumptions to explain and control sycophancy
LLM은 사용자가 "제가 잘못했나요?"와 같은 질문을 할 때, 진정한 평가를 제공하는 대신 사용자에게 긍정적인 답변을 하는 등 사회적으로 아첨하는 경향이 있습니다. 우리는 이러한 행동이 사용자에 대한 잘못된 가정에서 비롯된다고 가정합니다. 예를 들어, 사용자가 정보보다는 안심을 구하는 빈도를 과소평가하는 경우가 있습니다. 본 논문에서는 LLM으로부터 이러한 가정을 추출하기 위한 프레임워크인 "명시된 가정(Verbalized Assumptions)"을 제시합니다. 명시된 가정은 LLM의 아첨 행위, 망상, 그리고 다른 안전 관련 문제에 대한 통찰력을 제공합니다. 예를 들어, 사회적 아첨 데이터셋에서 LLM의 가정에서 가장 빈번하게 나타나는 이중 단어는 "검증 요청(seeking validation)"입니다. 우리는 명시된 가정과 아첨적인 모델 행동 간의 인과 관계에 대한 증거를 제시합니다. 명시된 가정에 대한 탐색(이러한 가정의 내부 표현에 대해 훈련된 선형 탐색)을 통해 사회적 아첨 행동을 해석 가능하고 세밀하게 제어할 수 있습니다. 우리는 LLM이 왜 기본적으로 아첨적인 가정을 사용하는지 탐구합니다. 동일한 질문에 대해 사람들은 다른 사람보다 AI로부터 더 객관적이고 유용한 답변을 기대하지만, 인간-인간 대화로 훈련된 LLM은 이러한 기대치의 차이를 고려하지 못합니다. 본 연구는 아첨이라는 현상을 설명하는 새로운 메커니즘으로서의 가정을 이해하는 데 기여합니다.
LLMs can be socially sycophantic, affirming users when they ask questions like "am I in the wrong?" rather than providing genuine assessment. We hypothesize that this behavior arises from incorrect assumptions about the user, like underestimating how often users are seeking information over reassurance. We present Verbalized Assumptions, a framework for eliciting these assumptions from LLMs. Verbalized Assumptions provide insight into LLM sycophancy, delusion, and other safety issues, e.g., the top bigram in LLMs' assumptions on social sycophancy datasets is ``seeking validation.'' We provide evidence for a causal link between Verbalized Assumptions and sycophantic model behavior: our assumption probes (linear probes trained on internal representations of these assumptions) enable interpretable fine-grained steering of social sycophancy. We explore why LLMs default to sycophantic assumptions: on identical queries, people expect more objective and informative responses from AI than from other humans, but LLMs trained on human-human conversation do not account for this difference in expectations. Our work contributes a new understanding of assumptions as a mechanism for sycophancy.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.