RFEval: 대규모 추론 모델에서 반사실적 추론 개입 하의 추론 충실도 벤치마킹
RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models
대규모 추론 모델(LRMs)은 강력한 성능을 보여주지만, 종종 그럴듯해 보이나 실제 의사 결정 과정을 반영하지 못하는 근거를 생성하여 신뢰성을 저해한다. 우리는 정확도와 명시적으로 분리된 두 가지 테스트 가능한 조건, 즉 입장 일관성(stance consistency, 추론과 정답을 연결하는 일관된 입장) 및 인과적 영향력(causal influence, 명시된 추론이 출력 수준 개입 하에서 정답을 인과적으로 유도함)으로 정의되는 추론 충실도(reasoning faithfulness)에 대한 공식 프레임워크를 도입한다. 이를 실행하기 위해 통제된 출력 수준의 반사실적 개입을 통해 충실도를 조사하는 7개 작업, 7,186개 인스턴스로 구성된 벤치마크인 RFEval을 제시한다. 12개의 오픈 소스 LRM을 평가한 결과, 출력의 49.7%에서 불충실함이 발견되었으며 이는 주로 입장 불일치에서 비롯되었다. 이러한 실패는 수학 및 코드와 같이 취약하고 수렴적인 도메인에 집중되어 있으며, 모델의 크기보다는 학습 후(post-training) 기법과 더 높은 상관관계를 보였다. 동일 모델군 내 절제 연구(ablation) 결과, 지도 미세 조정(SFT) 위에 현재의 강화학습(RL) 형태의 목표를 추가하면 정확도가 유지되더라도 추론 충실도가 감소할 수 있음이 나타났다. 결정적으로 정확도는 충실도에 대한 충분조건이나 신뢰할 수 있는 대리 지표가 아니다. 모델과 작업을 통제했을 때 정확도와 충실도 간의 연관성은 약하며 통계적으로 유의미하지 않았다. 본 연구는 LRM의 신뢰성을 검증하기 위한 엄격한 방법론을 확립하며, 신뢰할 수 있는 AI를 구축하려면 올바른 결과뿐만 아니라 추론 과정의 구조적 무결성(structural integrity)을 함께 최적화해야 함을 보여준다. 코드와 데이터셋은 다음 프로젝트 페이지에서 확인할 수 있다: $\href{https://aidaslab.github.io/RFEval/}{https://aidaslab.github.io/RFEval/}$
Large Reasoning Models (LRMs) exhibit strong performance, yet often produce rationales that sound plausible but fail to reflect their true decision process, undermining reliability and trust. We introduce a formal framework for reasoning faithfulness, defined by two testable conditions: stance consistency (a coherent stance linking reasoning to answer) and causal influence (the stated reasoning causally drives the answer under output-level interventions), explicitly decoupled from accuracy. To operationalize this, we present RFEval, a benchmark of 7,186 instances across seven tasks that probes faithfulness via controlled, output-level counterfactual interventions. Evaluating twelve open-source LRMs, we find unfaithfulness in 49.7% of outputs, predominantly from stance inconsistency. Failures are concentrated in brittle, convergent domains such as math and code, and correlate more with post-training regimes than with scale: within-family ablations indicate that adding current RL-style objectives on top of supervised fine-tuning can reduce reasoning faithfulness, even when accuracy is maintained. Crucially, accuracy is neither a sufficient nor a reliable proxy for faithfulness: once controlling for model and task, the accuracy-faithfulness link is weak and statistically insignificant. Our work establishes a rigorous methodology for auditing LRM reliability and shows that trustworthy AI requires optimizing not only for correct outcomes but also for the structural integrity of the reasoning process. Our code and dataset can be found at project page: $\href{https://aidaslab.github.io/RFEval/}{https://aidaslab.github.io/RFEval/}$
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.