Poly-EPO: 탐색적 추론 모델 훈련
Poly-EPO: Training Exploratory Reasoning Models
탐색은 경험을 통해 학습하는 데 있어 핵심적인 요소입니다. 탐색을 통해 에이전트는 복잡한 문제에 대한 해결책을 찾고, 새로운 문제에 일반화하며, 테스트 시간의 계산 자원을 활용하여 성능을 향상시킬 수 있습니다. 본 논문에서는, 긍정적인 탐색을 명시적으로 장려하고 탐색과 활용의 시너지를 촉진하는, 사후 훈련 언어 모델(LM)을 위한 프레임워크를 제시합니다. 핵심 아이디어는 LM을 훈련하여, 보상 함수 하에서 집합적으로 정확하고, 추론 전략에서 탐색적인 응답 집합을 생성하도록 하는 것입니다. 먼저, 임의의 목적 함수 하에서 집합 강화 학습(set RL)을 사용하여 LM을 최적화하는 일반적인 방법을 개발하고, 표준 RL 알고리즘이 장점 계산 수정 과정을 통해 이 설정에 어떻게 적용될 수 있는지 보여줍니다. 그런 다음, 우리는 탐색과 활용을 명시적으로 결합하는 목적 함수를 사용하여 이 프레임워크를 구현한 Polychromic Exploratory Policy Optimization (Poly-EPO)을 제안합니다. 다양한 추론 벤치마크에서, Poly-EPO는 일반화 성능을 향상시키고(높은 pass@$k$ 비율으로 입증됨), 모델 생성의 다양성을 유지하며, 테스트 시간의 계산 자원에 효율적으로 적응한다는 것을 보여줍니다.
Exploration is a cornerstone of learning from experience: it enables agents to find solutions to complex problems, generalize to novel ones, and scale performance with test-time compute. In this paper, we present a framework for post-training language models (LMs) that explicitly encourages optimistic exploration and promotes a synergy between exploration and exploitation. The central idea is to train the LM to generate sets of responses that are collectively accurate under the reward function and exploratory in their reasoning strategies. We first develop a general recipe for optimizing LMs with set reinforcement learning (set RL) under arbitrary objective functions, showing how standard RL algorithms can be adapted to this setting through a modification to the advantage computation. We then propose Polychromic Exploratory Policy Optimization (Poly-EPO), which instantiates this framework with an objective that explicitly synergizes exploration and exploitation. Across a range of reasoning benchmarks, we show that Poly-EPO improves generalization, as evidenced by higher pass@$k$ coverage, preserves greater diversity in model generations, and effectively scales with test-time compute.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.