AgentV-RL: 에이전트 기반 검증기를 활용한 보상 모델링 확장
AgentV-RL: Scaling Reward Modeling with Agentic Verifier
검증기는 테스트 시간 확장(TTS)을 통해 LLM의 추론 능력을 향상시키는 것으로 나타났습니다. 그러나 복잡한 영역에서는 검증기가 상당한 어려움에 직면합니다. 부정확한 중간 추론 과정에서 발생하는 오류는 겉보기에 그럴듯한 해결책에 대해 오탐을 유발할 수 있으며, 외부 지식 기반의 부족은 계산 또는 지식 집약적인 작업에서 검증기의 신뢰성을 떨어뜨립니다. 이러한 문제점을 해결하기 위해, 우리는 보상 모델링을 다단계, 도구 기반의 숙고 과정으로 변환하는 프레임워크인 Agentic Verifier를 제안합니다. 우리는 상호 보완적인 순방향 및 역방향 에이전트를 도입합니다. 순방향 에이전트는 전제에서 결론으로 해결책을 추적하고, 역방향 에이전트는 결론을 해당 전제와 다시 비교합니다. 이러한 양방향 프로세스는 해결책에 대한 포괄적이고 신뢰성 있으며 해석 가능한 평가를 가능하게 합니다. 실질적인 배포를 용이하게 하기 위해, 우리는 AgentV-RL을 제안합니다. AgentV-RL은 능동적인 탐색과 강화 학습을 통해 검증기가 자체적인 추론 과정과 도구 사용을 자동으로 결합합니다. 광범위한 실험 결과, Agentic Verifier는 병렬 및 순차적 TTS 환경 모두에서 일관된 성능 향상을 보여줍니다. 특히, 4B 모델은 최첨단 ORM(Output Reward Models)보다 25.2% 더 높은 성능을 보여주며, 이는 에이전트 기반 보상 모델링의 유망한 패러다임을 제시합니다.
Verifiers have been demonstrated to enhance LLM reasoning via test-time scaling (TTS). Yet, they face significant challenges in complex domains. Error propagation from incorrect intermediate reasoning can lead to false positives for seemingly plausible solutions, while lacking external grounding makes verifiers unreliable on computation or knowledge-intensive tasks. To address these challenges, we propose Agentic Verifier, a framework that transforms reward modeling into a multi-turn, tool-augmented deliberative process. We introduce complementary forward and backward agents: one traces solutions from premises to conclusions, while the other re-checks conclusions against their underlying premises. This bidirectional process enables a comprehensive, reliable, and interpretable assessment of solutions. To facilitate practical deployment, we propose AgentV-RL. Through proactive exploration and reinforcement learning, the verifier autonomously interleaves tool-use with internal reasoning. Extensive experiments show that Agentic Verifier yields consistent performance gains under both parallel and sequential TTS. Notably, our 4B variant surpasses state-of-the-art ORMs by 25.2%, positioning it as a promising paradigm for agentic reward modeling.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.