2603.01335v1 Mar 02, 2026 cs.LG

검증 가능하고 실용적인 문맥 내 정책 최적화를 통한 자기 개선

Provable and Practical In-Context Policy Optimization for Self-Improvement

Xuchao Zhang
Xuchao Zhang
Citations: 442
h-index: 11
Chetan Bansal
Chetan Bansal
Citations: 599
h-index: 13
Zhaoyang Wang
Zhaoyang Wang
Citations: 129
h-index: 4
Huaxiu Yao
Huaxiu Yao
Citations: 58
h-index: 4
Tianrun Yu
Tianrun Yu
Citations: 0
h-index: 0
Kaixiang Zhao
Kaixiang Zhao
Citations: 25
h-index: 3
P. Jenkins
P. Jenkins
Citations: 139
h-index: 7
Yuxiao Yang
Yuxiao Yang
Citations: 1,028
h-index: 14
Weitong Zhang
Weitong Zhang
Citations: 683
h-index: 10

본 연구에서는 모델이 추론 과정에서 다단계 자기 성찰을 통해 답변을 개선하는 '추론 시간 스케일링'을 다룹니다. 우리는 '문맥 내 정책 최적화(ICPO)'라는 방법을 제안하는데, 이는 에이전트가 파라미터를 변경하지 않고, 스스로 평가하거나 외부 관찰을 통해 얻은 보상을 사용하여 문맥 내에서 자신의 응답을 최적화하는 방식입니다. ICPO 과정을 설명하기 위해, 우리는 새로운 Fisher 가중 로그-매칭 객체 함수 하에서 충분한 사전 훈련을 거치면, 단일 레이어 선형 자기-주의 모델이 선형 밴딧을 위한 정책 최적화 알고리즘을 검증 가능하게 모방할 수 있음을 이론적으로 증명합니다. 이러한 이론을 바탕으로, 우리는 '최소 엔트로피 ICPO(ME-ICPO)'라는 실용적인 알고리즘을 제안합니다. ME-ICPO는 반복적으로 자신의 응답과 스스로 평가한 보상을 사용하여 추론 시간에 문맥 내에서 응답을 개선합니다. ME-ICPO는 최소 엔트로피를 갖는 응답과 보상을 선택함으로써, 다수결 투표를 통해 스스로 평가한 보상의 견고성을 확보합니다. 표준적인 수학적 추론 작업에서 ME-ICPO는 다른 추론 시간 알고리즘과 비교하여 경쟁력 있는 최상위 성능을 달성하면서도 추론 비용을 저렴하게 유지합니다. 종합적으로, ICPO는 LLM에서 자기 성찰에 대한 체계적인 이해를 제공하며, 수학적 추론을 위한 추론 시간 스케일링에 실질적인 이점을 제공합니다.

Original Abstract

We study test-time scaling, where a model improves its answer through multi-round self-reflection at inference. We introduce In-Context Policy Optimization (ICPO), in which an agent optimizes its response in context using self-assessed or externally observed rewards without modifying its parameters. To explain this ICPO process, we theoretically show that with sufficient pretraining under a novel Fisher-weighted logit-matching objective, a single-layer linear self-attention model can provably imitate policy-optimization algorithm for linear bandits. Building on this theory, we propose Minimum-Entropy ICPO (ME-ICPO), a practical algorithm that iteratively uses its response and self-assessed reward to refine its response in-context at inference time. By selecting the responses and their rewards with minimum entropy, ME-ICPO ensures the robustness of the self-assessed rewards via majority voting. Across standard mathematical reasoning tasks, ME-ICPO attains competitive, top-tier performance while keeping inference costs affordable compared with other inference-time algorithms. Overall, ICPO provides a principled understanding of self-reflection in LLMs and yields practical benefits for test-time scaling for mathematical reasoning.

0 Citations
0 Influential
7 Altmetric
35.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!