PRISM: 프로세스 보상 모델 기반 추론을 통한 심층 사고의 한계를 극복
PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference
DEEPTHINK 방법은 후보 솔루션 집합을 생성, 개선 및 집계하여 추론 능력을 향상시키며, 이를 통해 복잡한 수학 및 과학 문제에서 뛰어난 성능을 보입니다. 그러나 기존 프레임워크는 추론 과정에서 신뢰할 수 있는 정확성 신호를 제공하지 못하는 경우가 많아, 심층적인 고찰이 오히려 오류를 증폭시키고, 올바른 소수 솔루션을 억제하며, 추가적인 연산 자원을 비효율적으로 사용하는 병목 현상을 야기합니다. 본 논문에서는 DEEPTHINK 시스템의 기능적 분해를 제시하고, 단계별 검증을 통해 솔루션 개선 및 집계를 안내하는 프로세스 보상 모델(Process Reward Model, PRM) 기반 추론 알고리즘인 PRISM을 제안합니다. PRISM은 개선 과정에서 후보 솔루션을 PRM에 의해 정의된 에너지 지형 상의 입자로 간주하고, 점수 기반 재샘플링 및 확률적 개선을 통해 집단을 재구성하여, 고품질 추론에 확률 질량을 집중시키면서 다양성을 유지합니다. 수학 및 과학 벤치마크에서 PRISM은 기존 DEEPTHINK 방법과 경쟁하거나 더 나은 성능을 보이며, gpt-oss-20b를 사용하여 AIME25, HMMT25, GPQA Diamond에서 각각 90.0%, 75.4%, 71.4%의 정확도를 달성했으며, 이는 gpt-oss-120b와 유사하거나 그 이상의 성능입니다. 또한, 분석 결과 PRISM은 개선 과정에서 일관된 방향으로 오류를 수정하며, 초기 집단에 올바른 후보가 적더라도 안정적인 성능을 유지하고, 연산 자원과 정확도 간의 최적점을 잘 따르는 것으로 나타났습니다.
DEEPTHINK methods improve reasoning by generating, refining, and aggregating populations of candidate solutions, which enables strong performance on complex mathematical and scientific tasks. However, existing frameworks often lack reliable correctness signals during inference, which creates a population-enhancement bottleneck where deeper deliberation amplifies errors, suppresses correct minority solutions, and yields weak returns to additional compute. In this paper, we introduce a functional decomposition of DEEPTHINK systems and propose PRISM, a Process Reward Model (PRM)-guided inference algorithm that uses step-level verification to guide both population refinement and solution aggregation. During refinement, PRISM treats candidate solutions as particles in a PRM-defined energy landscape and reshapes the population through score-guided resampling and stochastic refinement, which concentrates probability mass on higher-quality reasoning while preserving diversity. Across mathematics and science benchmarks, PRISM is competitive with or outperforms existing DEEPTHINK methods, reaching 90.0%, 75.4%, and 71.4% with gpt-oss-20b on AIME25, HMMT25, and GPQA Diamond, respectively, while matching or exceeding gpt-oss-120b. Additionally, our analysis shows that PRISM produces consistent net-directional correction during refinement, remains reliable when the initial population contains few correct candidates, and often lies on the compute-accuracy Pareto frontier.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.