ImpRIF: 강력한 암묵적 추론이 더 나은 복잡한 지시 따르기로 이어진다
ImpRIF: Stronger Implicit Reasoning Leads to Better Complex Instruction Following
대규모 언어 모델(LLM)의 활용이 점점 더 복잡해짐에 따라, 안정적인 복잡한 지시 따르기 능력에 대한 요구가 그에 따라 증가하고 있습니다. 우리는 지시 자체에 대한 철저한 이해, 특히 줄 사이에는 숨겨진 추론 구조가 있다는 점이 지시 따르기를 개선하는 데 매우 중요하다고 주장합니다. 따라서 우리는 암묵적인 추론, 복잡한 논리적 관계 및 다중 제약 조건 종속성을 포함하는 복잡한 지시를 대상으로 합니다. 우리는 LLM이 암묵적인 추론 지시를 더 잘 이해하도록 하여 복잡한 지시를 따르는 능력을 향상시키는 방법인 ImpRIF를 제안합니다. 우리는 이러한 지시를 검증 가능한 추론 그래프로 공식화하여 프로그래밍 방식으로 검증하고 그래프 기반의 사고 과정을 가능하게 합니다. 이러한 공식화를 바탕으로 대규모의 단일 및 다중 턴 데이터를 생성하고, 그래프 기반 추론을 활용한 미세 조정을 제안하며, 강화 학습을 사용하여 모델이 그래프를 따라 추론하도록 명시적으로 훈련합니다. 우리는 다섯 가지 복잡한 지시 따르기 벤치마크에서, 저희 모델이 기본 모델보다 크게 뛰어난 성능을 보였습니다. 이러한 결과는 암묵적인 추론 능력을 향상시키는 것이 복잡한 지시 따르기를 크게 개선할 수 있음을 보여줍니다. 이 프로젝트는 가까운 시일 내에 오픈 소스로 공개될 예정입니다.
As applications of large language models (LLMs) become increasingly complex, the demand for robust complex instruction following capabilities is growing accordingly. We argue that a thorough understanding of the instruction itself, especially the latent reasoning structure embedded between the lines, is crucial for improving instruction following. Therefore we target complex instructions that involve implicit reasoning, intricate logical relations, and multi-constraint dependencies. We propose ImpRIF, a method to enhance LLMs' understanding of implicit reasoning instructions, thereby improving its ability to follow complex instructions. We formalize such instructions as verifiable reasoning graphs, enabling programmatic verification and graph-driven chain-of-thought reasoning. Based on this formulation, we synthesize large-scale single- and multi-turn data, propose fine-tuning with graph reasoning, and apply reinforcement learning to explicitly train models to reason along the graph. On five complex instruction following benchmarks, our models substantially outperform their base models. These results demonstrate that enhancing implicit reasoning capabilities can significantly improve complex instruction following. This project will be open-sourced in the near future.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.