DeFrame: 프레임 효과에 대한 대규모 언어 모델의 편향 완화
DeFrame: Debiasing Large Language Models Against Framing Effects
대규모 언어 모델(LLM)이 실제 응용 분야에 점점 더 많이 사용됨에 따라, 다양한 인구 집단에 대해 공정한 응답을 제공하는 것이 중요해졌습니다. 많은 노력이 기울여지고 있지만, 여전히 해결해야 할 과제는 숨겨진 편향입니다. LLM은 표준 평가에서는 공정해 보이는 경향이 있지만, 해당 평가 환경 외부에서는 편향된 응답을 생성할 수 있습니다. 본 논문에서는 '프레임 차이'를 이 격차의 간과된 원인으로 지목합니다. 프레임 차이란, 의미적으로 동일한 프롬프트가 표현되는 방식의 차이를 의미합니다 (예: "A가 B보다 좋다" vs. "B가 A보다 나쁘다"). 우리는 먼저 '프레임 차이' 개념을 도입하여 프레임이 공정성 평가에 미치는 영향을 정량화합니다. 공정성 평가 벤치마크에 다양한 프레임을 추가함으로써, (1) 공정성 점수가 프레임에 따라 크게 달라지고, (2) 기존의 편향 완화 방법은 전체적인 공정성(프레임 평균)을 향상시키지만, 종종 프레임에 의해 발생하는 불일치를 줄이는 데 실패한다는 것을 발견했습니다. 이러한 문제를 해결하기 위해, 우리는 LLM이 다양한 프레임에서 더 일관성을 유지하도록 장려하는 프레임 인지 편향 완화 방법을 제안합니다. 실험 결과, 제안하는 방법은 전체적인 편향을 줄이고 프레임 차이에 대한 강건성을 향상시켜 LLM이 더 공정하고 일관된 응답을 생성할 수 있도록 합니다.
As large language models (LLMs) are increasingly deployed in real-world applications, ensuring their fair responses across demographics has become crucial. Despite many efforts, an ongoing challenge is hidden bias: LLMs appear fair under standard evaluations, but can produce biased responses outside those evaluation settings. In this paper, we identify framing -- differences in how semantically equivalent prompts are expressed (e.g., "A is better than B" vs. "B is worse than A") -- as an underexplored contributor to this gap. We first introduce the concept of "framing disparity" to quantify the impact of framing on fairness evaluation. By augmenting fairness evaluation benchmarks with alternative framings, we find that (1) fairness scores vary significantly with framing and (2) existing debiasing methods improve overall (i.e., frame-averaged) fairness, but often fail to reduce framing-induced disparities. To address this, we propose a framing-aware debiasing method that encourages LLMs to be more consistent across framings. Experiments demonstrate that our approach reduces overall bias and improves robustness against framing disparities, enabling LLMs to produce fairer and more consistent responses.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.