효율적인 경로와 조밀한 보상: 거대 언어 모델을 위한 확률적 흐름 추론
Efficient Paths and Dense Rewards: Probabilistic Flow Reasoning for Large Language Models
고품질의 생각의 사슬(Chain-of-Thought)은 거대 언어 모델의 추론 능력을 이끌어내는 데 있어 강력한 잠재력을 입증했습니다. 그러나 현재의 패러다임은 일반적으로 추론 과정을 분할할 수 없는 하나의 시퀀스로 취급하며, 단계별 정보 이득을 정량화하는 내재적 메커니즘이 부족합니다. 이러한 입도의 차이는 명시적인 지침 없는 중복 탐색으로 인한 추론 비효율성과, 희소한 결과 지도(supervision) 또는 비용이 많이 드는 외부 검증기로 인한 최적화의 어려움이라는 두 가지 한계로 나타납니다. 본 연구에서는 이산적인 추론 단계를 연속적인 확률적 흐름으로 재개념화하여 정답에 대한 각 단계의 기여도를 정량화하는 프레임워크인 CoT-Flow를 제안합니다. 이 공식에 기반하여 CoT-Flow는 두 가지 상호 보완적인 방법론을 가능하게 합니다. 즉, 정보 효율적인 추론 경로를 추출하기 위해 탐욕적 흐름 기반 디코딩 전략을 사용하는 '흐름 유도 디코딩(flow-guided decoding)'과 검증기가 필요 없는 조밀한 보상 함수를 구성하는 '흐름 기반 강화 학습(flow-based reinforcement learning)'입니다. 난이도 높은 벤치마크에 대한 실험 결과는 CoT-Flow가 추론 효율성과 추론 성능 사이에서 우수한 균형을 달성함을 입증합니다.
High-quality chain-of-thought has demonstrated strong potential for unlocking the reasoning capabilities of large language models. However, current paradigms typically treat the reasoning process as an indivisible sequence, lacking an intrinsic mechanism to quantify step-wise information gain. This granularity gap manifests in two limitations: inference inefficiency from redundant exploration without explicit guidance, and optimization difficulty due to sparse outcome supervision or costly external verifiers. In this work, we propose CoT-Flow, a framework that reconceptualizes discrete reasoning steps as a continuous probabilistic flow, quantifying the contribution of each step toward the ground-truth answer. Built on this formulation, CoT-Flow enables two complementary methodologies: flow-guided decoding, which employs a greedy flow-based decoding strategy to extract information-efficient reasoning paths, and flow-based reinforcement learning, which constructs a verifier-free dense reward function. Experiments on challenging benchmarks demonstrate that CoT-Flow achieves a superior balance between inference efficiency and reasoning performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.