OPE: 개요 유도 경로 탐색을 통한 병렬적 사고의 정보 포화 극복
OPE: Overcoming Information Saturation in Parallel Thinking via Outline-Guided Path Exploration
병렬적 사고는 복잡한 문제를 해결하는 거대 추론 모델(LRM)의 새로운 패러다임으로 부상했습니다. 최근의 방법들은 지도 미세 조정에서 발생하는 계산 자원 및 효과성의 한계를 해결하기 위해 강화 학습(RL)을 활용하여 병렬적 사고를 향상시키려 하고 있습니다. 그러나 기존 연구 대부분은 통합 단계 최적화에 주로 초점을 맞추고 있으며, 경로 탐색 단계에는 상대적으로 관심이 제한적이었습니다. 본 논문에서는 검증 가능한 보상을 갖는 강화 학습(RLVR) 설정에서 병렬적 사고의 최적화를 이론적으로 분석하고, 탐색 경로 간의 상호 정보 병목 현상이 전체 성능을 근본적으로 제한한다는 것을 확인했습니다. 이를 해결하기 위해 우리는 개요 유도 경로 탐색(OPE)을 제안합니다. 이는 병렬 경로 추론에 앞서 다양한 추론 개요를 생성하여 해 공간을 명시적으로 분할함으로써, 정보 중복을 줄이고 탐색 경로 전반에서 포착되는 정보의 다양성을 향상시킵니다. 우리는 개요 계획과 개요 유도 추론을 독립적으로 최적화하는 반복적 RL 전략으로 OPE를 구현했습니다. 다수의 고난도 수학 벤치마크에 걸친 광범위한 실험을 통해, OPE가 다양한 통합 전략에서 추론 성능을 효과적으로 개선하여 LRM이 정답을 더 신뢰성 있게 발견할 수 있음을 입증했습니다.
Parallel thinking has emerged as a new paradigm for large reasoning models (LRMs) in tackling complex problems. Recent methods leverage Reinforcement Learning (RL) to enhance parallel thinking, aiming to address the limitations in computational resources and effectiveness encountered with supervised fine-tuning. However, most existing studies primarily focus on optimizing the aggregation phase, with limited attention to the path exploration stage. In this paper, we theoretically analyze the optimization of parallel thinking under the Reinforcement Learning with Verifiable Rewards (RLVR) setting, and identify that the mutual information bottleneck among exploration paths fundamentally restricts overall performance. To address this, we propose Outline-Guided Path Exploration (OPE), which explicitly partitions the solution space by generating diverse reasoning outlines prior to parallel path reasoning, thereby reducing information redundancy and improving the diversity of information captured across exploration paths. We implement OPE with an iterative RL strategy that optimizes outline planning and outline-guided reasoning independently. Extensive experiments across multiple challenging mathematical benchmarks demonstrate that OPE effectively improves reasoning performance in different aggregation strategies, enabling LRMs to more reliably discover correct solutions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.