자기 검열 및 반사실적 자기 시뮬레이션이 대규모 언어 모델의 편향성과 아첨 현상을 완화
Self-Blinding and Counterfactual Self-Simulation Mitigate Biases and Sycophancy in Large Language Models
공정한 의사결정은 관련 없는, 잠재적으로 편향적인 정보를 무시해야 합니다. 이를 달성하기 위해 의사결정자는 특정 사실, 예를 들어 채용 후보자의 성별이나 인종을 알지 못했을 때 어떤 결정을 내렸을지 추정해야 합니다. 이러한 반사실적 자기 시뮬레이션은 인간에게 매우 어렵기 때문에, 의도를 가지고 행동하는 사람들에게서도 편향된 판단을 초래합니다. 본 연구에서는 대규모 언어 모델(LLM)이 성별 및 인종 편향을 완화하고 아첨 현상을 극복하기 위해 반사실적 지식을 바탕으로 어떤 결정을 내릴지 추정하는 능력에서 유사한 한계를 가지고 있음을 보여줍니다. 모델에게 편향적인 정보를 무시하거나 모르는 척하도록 지시하는 것은 이러한 편향을 완화하지 못하며, 때로는 역효과를 낼 수 있습니다. 그러나 인간과는 달리 LLM은 자신의 반사실적 인지 과정에 대한 진실 모델, 즉 자신의 API에 접근할 수 있습니다. 이러한 접근은 편향되지 않은 복제 모델의 응답을 활용하여 더 공정한 의사결정을 가능하게 하며, 의도적으로 편향된 행동과 암묵적인 편향된 행동을 구별하는 데 더 큰 투명성을 제공합니다.
Fair decisions require ignoring irrelevant, potentially biasing, information. To achieve this, decision-makers need to approximate what decision they would have made had they not known certain facts, such as the gender or race of a job candidate. This counterfactual self-simulation is notoriously hard for humans, leading to biased judgments even by well-meaning actors. Here we show that large language models (LLMs) suffer from similar limitations in their ability to approximate what decisions they would make under counterfactual knowledge in offsetting gender and race biases and overcoming sycophancy. We show that prompting models to ignore or pretend not to know biasing information fails to offset these biases and occasionally backfires. However, unlike humans, LLMs can be given access to a ground-truth model of their own counterfactual cognition -- their own API. We show that this access to the responses of a blinded replica enables fairer decisions, while providing greater transparency to distinguish implicit from intentionally biased behavior.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.