V_0: 초기 상태에서의 모든 정책에 적용 가능한 일반적인 가치 모델
$V_0$: A Generalist Value Model for Any Policy at State Zero
정책 그래디언트 방법은 액션의 상대적인 이점을 측정하기 위한 기준점을 사용하며, 이를 통해 모델은 현재 평균 능력보다 더 뛰어난 행동을 강화합니다. 대규모 언어 모델(LLM)을 액터-크리틱 방법(예: PPO)으로 훈련할 때, 이 기준점은 일반적으로 정책 모델 자체만큼 큰 가치 모델(크리틱)에 의해 추정됩니다. 그러나 정책이 지속적으로 진화함에 따라, 가치 모델은 정책의 변화하는 능력을 정확하게 추적하기 위해 비용이 많이 드는 동기화된 점진적 훈련이 필요합니다. 이러한 부담을 줄이기 위해 그룹 상대 정책 최적화(GRPO)는 그룹의 여러 실행 결과의 평균 보상을 기준점으로 사용하여 결합된 가치 모델을 제거합니다. 그러나 이 접근 방식은 추정의 안정성을 유지하기 위해 광범위한 샘플링이 필요합니다. 본 논문에서는 파라미터 업데이트 없이도 보이지 않는 프롬프트에 대한 모델의 예상 성능을 추정할 수 있는 일반적인 가치 모델인 V_0을 제안합니다. 우리는 가치 추정을 정책의 동적 능력을 명시적인 컨텍스트 입력으로 처리하는 방식으로 재구성합니다. 구체적으로, 우리는 모델의 능력을 동적으로 프로파일링하기 위해 명령어-성능 쌍의 이력을 활용하며, 이는 정책의 능력 변화를 파라미터 적합에 의존하는 기존의 패러다임과는 다릅니다. 초기 프롬프트(즉, State Zero, 따라서 V_0)에서의 가치 추정에 초점을 맞춰, 우리 모델은 중요한 리소스 스케줄러 역할을 합니다. GRPO 훈련 중, V_0은 실행 전에 성공률을 예측하여 효율적인 샘플링 예산 할당을 가능하게 합니다. 배포 시, V_0은 라우터 역할을 수행하여 명령어를 가장 비용 효율적이고 적합한 모델로 전달합니다. 실험 결과는 V_0이 휴리스틱 기반 예산 할당보다 훨씬 우수하며, LLM 라우팅 작업에서 성능과 비용 간의 파레토 최적의 균형을 달성함을 보여줍니다.
Policy gradient methods rely on a baseline to measure the relative advantage of an action, ensuring the model reinforces behaviors that outperform its current average capability. In the training of Large Language Models (LLMs) using Actor-Critic methods (e.g., PPO), this baseline is typically estimated by a Value Model (Critic) often as large as the policy model itself. However, as the policy continuously evolves, the value model requires expensive, synchronous incremental training to accurately track the shifting capabilities of the policy. To avoid this overhead, Group Relative Policy Optimization (GRPO) eliminates the coupled value model by using the average reward of a group of rollouts as the baseline; yet, this approach necessitates extensive sampling to maintain estimation stability. In this paper, we propose $V_0$, a Generalist Value Model capable of estimating the expected performance of any model on unseen prompts without requiring parameter updates. We reframe value estimation by treating the policy's dynamic capability as an explicit context input; specifically, we leverage a history of instruction-performance pairs to dynamically profile the model, departing from the traditional paradigm that relies on parameter fitting to perceive capability shifts. Focusing on value estimation at State Zero (i.e., the initial prompt, hence $V_0$), our model serves as a critical resource scheduler. During GRPO training, $V_0$ predicts success rates prior to rollout, allowing for efficient sampling budget allocation; during deployment, it functions as a router, dispatching instructions to the most cost-effective and suitable model. Empirical results demonstrate that $V_0$ significantly outperforms heuristic budget allocation and achieves a Pareto-optimal trade-off between performance and cost in LLM routing tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.