지식 그래프는 암묵적 보상 모델이다: 경로 유도 신호를 통한 구성적 추론
Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning
대규모 언어 모델은 수학이나 프로그래밍과 같은 구조적 추론 영역에서 전문가에 가까운 성능을 달성했지만, 특수 과학 분야에서 구성적 멀티 홉(multi-hop) 추론을 수행하는 능력은 여전히 제한적이다. 우리는 모델이 공리적 도메인 사실에 기반을 두고 이를 조합하여 복잡하고 새로운 과제를 해결하는 상향식 학습 패러다임을 제안한다. 이를 위해, 우리는 지식 그래프가 암묵적 보상 모델로 작용하는 지도 미세 조정과 강화 학습(RL)의 결합에 기반한 사후 학습 파이프라인을 제시한다. 지식 그래프 경로에서 새로운 보상 신호를 유도함으로써, 우리는 RL 과정에서 모델이 최종 답변만 최적화하는 대신 중간 공리들을 구성하도록 장려하는 검증 가능하고 확장 가능하며 근거 있는 지도를 제공한다. 우리는 의료 도메인에서 이 접근 방식을 검증하였으며, 14B 모델을 짧은 홉 추론 경로(1-3 홉)로 훈련시키고 복잡한 멀티 홉 질의(4-5 홉)에 대한 제로샷 일반화 성능을 평가했다. 실험 결과, 경로 유도 보상은 "구성적 가교" 역할을 하여 우리 모델이 가장 어려운 추론 과제에서 훨씬 더 큰 모델 및 GPT-5.2, Gemini 3 Pro와 같은 최첨단 시스템을 크게 능가할 수 있음을 보여주었다. 또한, 우리는 선택지 섞기(option-shuffling) 스트레스 테스트와 같은 적대적 변형에 대해서도 우리 접근 방식이 견고함을 입증했다. 이 연구는 추론 과정을 구조화된 지식에 기반하게 하는 것이 지능적 추론을 향한 확장 가능하고 효율적인 길임을 시사한다.
Large language models have achieved near-expert performance in structured reasoning domains like mathematics and programming, yet their ability to perform compositional multi-hop reasoning in specialized scientific fields remains limited. We propose a bottom-up learning paradigm in which models are grounded in axiomatic domain facts and compose them to solve complex, unseen tasks. To this end, we present a post-training pipeline, based on a combination of supervised fine-tuning and reinforcement learning (RL), in which knowledge graphs act as implicit reward models. By deriving novel reward signals from knowledge graph paths, we provide verifiable, scalable, and grounded supervision that encourages models to compose intermediate axioms rather than optimize only final answers during RL. We validate this approach in the medical domain, training a 14B model on short-hop reasoning paths (1-3 hops) and evaluating its zero-shot generalization to complex multi-hop queries (4-5 hops). Our experiments show that path-derived rewards act as a "compositional bridge", enabling our model to significantly outperform much larger models and frontier systems like GPT-5.2 and Gemini 3 Pro, on the most difficult reasoning tasks. Furthermore, we demonstrate the robustness of our approach to adversarial perturbations against option-shuffling stress tests. This work suggests that grounding the reasoning process in structured knowledge is a scalable and efficient path toward intelligent reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.