RAG 시스템의 사회적 편향 평가: 외부 문맥이 도움이 될 때와 추론이 해가 될 때
Evaluating Social Bias in RAG Systems: When External Context Helps and Reasoning Hurts
대규모 언어 모델(LLM)에 내재된 사회적 편향은 심각한 공정성 문제를 야기합니다. 검색 증강 생성(RAG) 아키텍처는 LLM의 생성 능력을 향상시키기 위해 외부 지식 소스를 활용하지만, 동일한 편향 관련 문제에 취약합니다. 본 연구는 RAG의 사회적 편향 함의를 평가하고 이해하는 데 중점을 둡니다. 다양한 검색 코퍼스, LLM, 그리고 13가지 이상의 다양한 편향 평가 데이터 세트를 활용한 광범위한 실험을 통해, 놀랍게도 RAG에서 편향이 감소하는 것을 관찰했습니다. 이는 외부 문맥의 포함이 고정관념에 기반한 예측을 상쇄하는 데 도움이 되어 모델 출력의 맥락적 기반을 다양화함으로써 공정성을 향상시킬 수 있음을 시사합니다. 이 현상을 더 잘 이해하기 위해, 우리는 체인 오브 씽크(CoT) 프롬프팅을 RAG에 통합하고 모델의 CoT의 충실성을 평가하여 모델의 추론 과정을 탐구했습니다. 실험 결과, 모델의 편향 경향은 검색된 문서에서 얻은 맥락 정보가 추가됨에 따라 고정관념적 응답과 반고정관념적 응답 사이로 변화하는 것을 보여주었습니다. 흥미롭게도, CoT는 정확도를 향상시키지만, RAG에서 관찰된 편향 감소와는 달리, 전반적으로 데이터 세트 전체에서 편향을 증가시키는 것으로 나타났습니다. 이는 이 균형을 완화할 수 있는 편향 인지 추론 프레임워크의 필요성을 강조합니다.
Social biases inherent in large language models (LLMs) raise significant fairness concerns. Retrieval-Augmented Generation (RAG) architectures, which retrieve external knowledge sources to enhance the generative capabilities of LLMs, remain susceptible to the same bias-related challenges. This work focuses on evaluating and understanding the social bias implications of RAG. Through extensive experiments across various retrieval corpora, LLMs, and bias evaluation datasets, encompassing more than 13 different bias types, we surprisingly observe a reduction in bias in RAG. This suggests that the inclusion of external context can help counteract stereotype-driven predictions, potentially improving fairness by diversifying the contextual grounding of the model's outputs. To better understand this phenomenon, we then explore the model's reasoning process by integrating Chain-of-Thought (CoT) prompting into RAG while assessing the faithfulness of the model's CoT. Our experiments reveal that the model's bias inclinations shift between stereotype and anti-stereotype responses as more contextual information is incorporated from the retrieved documents. Interestingly, we find that while CoT enhances accuracy, contrary to the bias reduction observed with RAG, it increases overall bias across datasets, highlighting the need for bias-aware reasoning frameworks that can mitigate this trade-off.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.