LIBERTy: 구조적 반사실적 예시를 활용한 LLM의 개념 기반 설명 평가를 위한 인과적 프레임워크
LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals
개념 기반 설명은 모델의 동작에 영향을 미치는 고차원적인 개념(예: 성별 또는 경험)을 정량화하며, 이는 고위험 영역의 의사 결정자에게 매우 중요합니다. 최근 연구에서는 이러한 설명의 충실도를, 반사실적 예시로부터 추정된 참조 인과 효과와 비교하여 평가합니다. 그러나 현재의 벤치마크는 비용이 많이 드는 사람이 작성한 반사실적 예시에 의존하며, 이는 완벽하지 않은 대리 지표로 사용됩니다. 이러한 문제를 해결하기 위해, 우리는 구조적 반사실적 예시 쌍을 포함하는 데이터셋을 구축하는 프레임워크인 LIBERTy (LLM 기반 설명성 평가를 위한 참조 대상 인터벤션 벤치마크)를 소개합니다. LIBERTy는 명시적으로 정의된 텍스트 생성의 구조적 인과 모델(SCM)을 기반으로 하며, 개념에 대한 개입은 SCM을 통해 전파되어 LLM이 반사실적 예시를 생성합니다. 우리는 세 개의 데이터셋(질병 감지, CV 검사, 직장 내 폭력 예측)과 새로운 평가 지표인 '순서 충실도'를 함께 제공합니다. 이를 사용하여 다섯 개의 모델에 대한 다양한 방법을 평가하고, 개념 기반 설명 개선을 위한 상당한 잠재력이 있음을 확인했습니다. LIBERTy는 또한 모델이 개입에 얼마나 민감한지를 체계적으로 분석할 수 있도록 합니다. 분석 결과, 독점 LLM은 인구 통계학적 개념에 대한 민감도가 현저히 낮으며, 이는 사후 훈련 완화 때문일 가능성이 높습니다. 전반적으로, LIBERTy는 충실한 설명 방법 개발을 위한 필수적인 벤치마크를 제공합니다.
Concept-based explanations quantify how high-level concepts (e.g., gender or experience) influence model behavior, which is crucial for decision-makers in high-stakes domains. Recent work evaluates the faithfulness of such explanations by comparing them to reference causal effects estimated from counterfactuals. In practice, existing benchmarks rely on costly human-written counterfactuals that serve as an imperfect proxy. To address this, we introduce a framework for constructing datasets containing structural counterfactual pairs: LIBERTy (LLM-based Interventional Benchmark for Explainability with Reference Targets). LIBERTy is grounded in explicitly defined Structured Causal Models (SCMs) of the text generation, interventions on a concept propagate through the SCM until an LLM generates the counterfactual. We introduce three datasets (disease detection, CV screening, and workplace violence prediction) together with a new evaluation metric, order-faithfulness. Using them, we evaluate a wide range of methods across five models and identify substantial headroom for improving concept-based explanations. LIBERTy also enables systematic analysis of model sensitivity to interventions: we find that proprietary LLMs show markedly reduced sensitivity to demographic concepts, likely due to post-training mitigation. Overall, LIBERTy provides a much-needed benchmark for developing faithful explainability methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.