사슬에서 그래프로: 일반 도메인 LLM을 위한 자체 구조화 추론
From Chains to Graphs: Self-Structured Reasoning for General-Domain LLMs
대규모 언어 모델(LLM)은 개방형 질문 답변에서 강력한 추론 능력을 보여주지만, 그 추론 과정은 일반적으로 선형적이며 종종 논리적으로 일관성이 부족합니다. 반면, 실제 세계의 추론은 여러 전제를 통합하고 하위 문제를 병렬로 해결하는 것을 요구합니다. 기존 방법인 Chain-of-Thought(CoT)와 같은 방법은 추론을 선형적인 텍스트 형태로 표현하며, 이는 일관성을 보이는 것처럼 보일 수 있지만, 종종 일관되지 않은 결론으로 이어집니다. 최근의 접근 방식은 외부에서 제공된 그래프에 의존하며, LLM이 자체적으로 그래프 구조화된 추론을 구성하고 사용하는 방법을 탐구하지 않습니다. 이러한 격차를 해소하기 위해, 본 연구에서는 일반 도메인 질문 답변에서 LLM의 그래프 구조화된 추론을 새롭게 탐구합니다. 우리는 Self-Graph Reasoning (SGR)이라는 프레임워크를 제안하며, 이는 LLM이 최종 답변을 생성하기 전에 자신의 추론 과정을 구조화된 그래프로 명시적으로 표현할 수 있도록 합니다. 또한, 모델 훈련을 위해 여러 후보 추론 그래프를 통합하여 정제된 그래프 구조를 가진 그래프 구조화된 추론 데이터셋을 구축했습니다. 일반 및 전문 도메인에 걸쳐 5개의 질문 답변 벤치마크에서 수행한 실험 결과, SGR은 일관성을 지속적으로 향상시키며, 기준 모델 대비 17.74%의 성능 향상을 보였습니다. SGR으로 미세 조정된 LLaMA-3.3-70B 모델은 GPT-4o와 유사한 성능을 보이며, Claude-3.5-Haiku를 능가하는 것으로 나타나 그래프 구조화된 추론의 효과를 입증합니다.
Large Language Models (LLMs) show strong reasoning ability in open-domain question answering, yet their reasoning processes are typically linear and often logically inconsistent. In contrast, real-world reasoning requires integrating multiple premises and solving subproblems in parallel. Existing methods, such as Chain-of-Thought (CoT), express reasoning in a linear textual form, which may appear coherent but frequently leads to inconsistent conclusions. Recent approaches rely on externally provided graphs and do not explore how LLMs can construct and use their own graph-structured reasoning, particularly in open-domain QA. To fill this gap, we novelly explore graph-structured reasoning of LLMs in general-domain question answering. We propose Self-Graph Reasoning (SGR), a framework that enables LLMs to explicitly represent their reasoning process as a structured graph before producing the final answer. We further construct a graph-structured reasoning dataset that merges multiple candidate reasoning graphs into refined graph structures for model training. Experiments on five QA benchmarks across both general and specialized domains show that SGR consistently improves reasoning consistency and yields a 17.74% gain over the base model. The LLaMA-3.3-70B model fine-tuned with SGR performs comparably to GPT-4o and surpasses Claude-3.5-Haiku, demonstrating the effectiveness of graph-structured reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.