2605.01482v1 May 02, 2026 cs.AI

그룹 상대적 정책 최적화를 통한 구조적 인과 모델 기반 다중 단계 추론

Grounding Multi-Hop Reasoning in Structural Causal Models via Group Relative Policy Optimization

Yunhan Bu
Yunhan Bu
Citations: 5
h-index: 1
Quannian Zhang
Quannian Zhang
Citations: 0
h-index: 0
Huaping Zhang
Huaping Zhang
Citations: 132
h-index: 2
Guotong Geng
Guotong Geng
Citations: 5
h-index: 1
Chunxiao Gao
Chunxiao Gao
Citations: 14
h-index: 3
Askar Hamdulla
Askar Hamdulla
Citations: 1
h-index: 1
Juanyan Wang
Juanyan Wang
Illinois Institute of Technology
Citations: 22
h-index: 2
Qiuchi Li
Qiuchi Li
Citations: 451
h-index: 9
Baohua Zhang
Baohua Zhang
Citations: 23
h-index: 3
Shuai Lei
Shuai Lei
Citations: 42
h-index: 3
Yu Cao
Yu Cao
Citations: 1
h-index: 1
Zhunchen Luo
Zhunchen Luo
Citations: 14
h-index: 2

다중 단계 사실 검증(MHFV)은 다양한 증거 간의 복잡한 추론을 필요로 하며, 이는 대규모 언어 모델(LLM)에게 상당한 어려움을 야기합니다. LLM은 종종 환각 현상과 논리적 연결의 단절 문제를 겪습니다. 기존 방법들은 연쇄적 사고(Chain-of-Thought, CoT)를 통해 투명성을 향상시키지만, 증거와 주장의 인과적 의존성을 명시적으로 모델링하지 못합니다. 본 연구에서는 구조적 인과 모델(SCM)에 기반한 새로운 프레임워크를 제안합니다. 이 프레임워크는 사실 검증을 구성적인 인과 추론 과정으로 간주합니다. 우리는 경험적으로 추론 체인의 길이와 정확성 사이에 "역 U자형" 상관관계가 존재함을 확인했으며, 이는 과도한 구조적 복잡성이 성능을 저하시킨다는 것을 보여줍니다. 이러한 문제를 해결하기 위해, 우리는 그룹 상대적 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용한 규칙 기반 강화 학습 전략을 제안합니다. 이 접근 방식은 구조적 깊이와 간결성 간의 균형을 동적으로 최적화합니다. HoVer 및 EX-FEVER 데이터셋에 대한 광범위한 실험 결과, 우리의 SCM-GRPO 프레임워크가 최첨단 방법보다 훨씬 우수한 성능을 보이며, 복잡한 사실 검증에 대한 신뢰성 있고 해석 가능한 솔루션을 제공함을 입증합니다.

Original Abstract

Multi-Hop Fact Verification (MHFV) necessitates complex reasoning across disparate evidence, posing significant challenges for Large Language Models (LLMs) which often suffer from hallucinations and fractured logical chains. Existing methods, while improving transparency via Chain-of-Thought (CoT), lack explicit modeling of the causal dependencies between evidence and claims. In this work, we introduce a novel framework that grounds reasoning in a Structural Causal Model (SCM), treating verification as a constructive causal inference process. We empirically identify an "inverted U-shaped" correlation between reasoning chain length and accuracy, revealing that excessive structural complexity degrades performance. To address this, we propose a Rule-based Reinforcement Learning strategy using Group Relative Policy Optimization (GRPO). This approach dynamically optimizes the trade-off between structural depth and conciseness. Extensive experiments on HoVer and EX-FEVER demonstrate that our SCM-GRPO framework significantly outperforms state-of-the-art baselines, offering a reliable and interpretable solution for complex fact verification.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!