BiasScope: LLM 평가 시스템에서의 편향 자동 감지를 위한 연구
BiasScope: Towards Automated Detection of Bias in LLM-as-a-Judge Evaluation
LLM-as-a-Judge는 다양한 연구 및 실용적 응용 분야에서 널리 사용되고 있지만, 그 평가의 안정성과 신뢰성은 중요한 문제로 남아 있습니다. 핵심적인 과제는 편향이며, 이는 주로 알려진 편향과 평가 결과에 미치는 영향에 대해 연구되어 왔습니다. 그러나 잠재적인 알려지지 않은 편향에 대한 자동화되고 체계적인 탐색은 아직 부족합니다. 이러한 탐색은 평가의 안정성과 신뢰성을 향상시키는 데 매우 중요합니다. 이러한 격차를 해소하기 위해, 우리는 모델 평가 과정에서 발생할 수 있는 잠재적인 편향을 자동으로 대규모로 발견하는 LLM 기반 프레임워크인 BiasScope를 제안합니다. BiasScope는 다양한 모델 아키텍처와 규모에 걸쳐 잠재적인 편향을 발견할 수 있으며, JudgeBench 데이터셋에서 그 일반성과 효과성이 검증되었습니다. BiasScope는 기존 방법의 한계를 극복하여, 수동 작업과 미리 정의된 편향 목록에 의존하는 수동적인 프로세스에서 벗어나, 능동적이고 포괄적인 자동화된 탐색으로 편향 발견 방식을 전환합니다. 또한, BiasScope를 기반으로, LLM-as-a-judge의 안정성을 평가하기 위한 더욱 도전적인 벤치마크인 JudgeBench-Pro를 제안합니다. 놀랍게도, 강력한 LLM 평가 모델조차도 JudgeBench-Pro에서 50% 이상의 오류율을 보이며, 이는 평가의 안정성을 강화하고 잠재적인 편향을 더욱 완화해야 할 시급한 필요성을 강조합니다.
LLM-as-a-Judge has been widely adopted across various research and practical applications, yet the robustness and reliability of its evaluation remain a critical issue. A core challenge it faces is bias, which has primarily been studied in terms of known biases and their impact on evaluation outcomes, while automated and systematic exploration of potential unknown biases is still lacking. Nevertheless, such exploration is crucial for enhancing the robustness and reliability of evaluations. To bridge this gap, we propose BiasScope, a LLM-driven framework for automatically and at scale discovering potential biases that may arise during model evaluation. BiasScope can uncover potential biases across different model families and scales, with its generality and effectiveness validated on the JudgeBench dataset. It overcomes the limitations of existing approaches, transforming bias discovery from a passive process relying on manual effort and predefined bias lists into an active and comprehensive automated exploration. Moreover, based on BiasScope, we propose JudgeBench-Pro, an extended version of JudgeBench and a more challenging benchmark for evaluating the robustness of LLM-as-a-judge. Strikingly, even powerful LLMs as evaluators show error rates above 50\% on JudgeBench-Pro, underscoring the urgent need to strengthen evaluation robustness and to mitigate potential biases further.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.