2601.20379v1 Jan 28, 2026 cs.AI

사고 정책(Policy of Thoughts): 테스트 타임 정책 진화를 통한 LLM 추론 확장

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

Zhengbo Jiao
Zhengbo Jiao
Citations: 13
h-index: 1
Hongyu Xian
Hongyu Xian
Citations: 0
h-index: 0
Zhebo Wang
Zhebo Wang
Citations: 80
h-index: 4
Zifan Zhang
Zifan Zhang
Citations: 18
h-index: 2
QING-LONG Wang
QING-LONG Wang
Citations: 4
h-index: 1
Yunpu Ma
Yunpu Ma
Citations: 75
h-index: 2
Dezhang Kong
Dezhang Kong
Citations: 90
h-index: 6
Meng Han
Meng Han
Citations: 1
h-index: 1

대규모 언어 모델(LLM)은 고정된 정책 가정으로 인한 불안정성 때문에 복잡한 장기 추론에 어려움을 겪습니다. 현재의 테스트 타임 확장 방법들은 실행 피드백을 단지 경로를 필터링하거나 다시 작성하기 위한 외부 신호로만 취급하며, 근본적인 추론 전략을 개선하기 위해 이를 내재화하지는 않습니다. 포퍼의 "추측과 논박" 인식론에서 영감을 받아, 우리는 지능이 실패한 시도로부터 학습함으로써 모델 정책의 실시간 진화를 필요로 한다고 주장합니다. 우리는 추론을 인스턴스 내 온라인 최적화 과정으로 재구성하는 프레임워크인 '사고 정책(Policy of Thoughts, PoT)'을 소개합니다. PoT는 먼저 효율적인 탐색 메커니즘을 통해 다양한 후보 솔루션을 생성한 다음, 실행 피드백을 기반으로 그룹 상대 정책 최적화(GRPO)를 사용하여 일시적인 LoRA 어댑터를 업데이트합니다. 이러한 폐루프 설계는 모델의 추론 사전 지식(priors)에 대한 동적이고 인스턴스별 맞춤형 개선을 가능하게 합니다. 실험 결과 PoT는 성능을 획기적으로 향상시키는 것으로 나타났습니다. 40억(4B) 파라미터 모델이 LiveCodeBench에서 49.71%의 정확도를 달성하여, 크기가 50배 이상 작음에도 불구하고 GPT-4o 및 DeepSeek-V3를 능가했습니다.

Original Abstract

Large language models (LLMs) struggle with complex, long-horizon reasoning due to instability caused by their frozen policy assumption. Current test-time scaling methods treat execution feedback merely as an external signal for filtering or rewriting trajectories, without internalizing it to improve the underlying reasoning strategy. Inspired by Popper's epistemology of "conjectures and refutations," we argue that intelligence requires real-time evolution of the model's policy through learning from failed attempts. We introduce Policy of Thoughts (PoT), a framework that recasts reasoning as a within-instance online optimization process. PoT first generates diverse candidate solutions via an efficient exploration mechanism, then uses Group Relative Policy Optimization (GRPO) to update a transient LoRA adapter based on execution feedback. This closed-loop design enables dynamic, instance-specific refinement of the model's reasoning priors. Experiments show that PoT dramatically boosts performance: a 4B model achieves 49.71% accuracy on LiveCodeBench, outperforming GPT-4o and DeepSeek-V3 despite being over 50 smaller.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!