2601.15808v1 Jan 22, 2026 cs.AI

검증의 추론 시간 확장: 테스트 시간 루브릭 기반 검증을 통한 자가 진화 심층 연구 에이전트

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Yuxuan Wan
Yuxuan Wan
The Chinese University of Hong Kong
Citations: 434
h-index: 11
Tianqing Fang
Tianqing Fang
Citations: 11
h-index: 1
Zaitang Li
Zaitang Li
Citations: 19
h-index: 1
Yintong Huo
Yintong Huo
Citations: 952
h-index: 18
Wenxuan Wang
Wenxuan Wang
Citations: 52
h-index: 4
Haitao Mi
Haitao Mi
Citations: 2,149
h-index: 20
Michael R. Lyu
Michael R. Lyu
Citations: 141
h-index: 8
Dong Yu
Dong Yu
Citations: 1,382
h-index: 14

심층 연구 에이전트(DRA)의 최근 발전은 자동화된 지식 발견과 문제 해결을 변화시키고 있습니다. 기존 연구의 대다수가 사후 학습(post-training)을 통해 정책 역량을 강화하는 데 초점을 맞춘 반면, 우리는 정교하게 제작된 루브릭(채점 기준)에 따라 정책 모델의 출력을 반복적으로 검증함으로써 에이전트의 능력을 자가 진화시키는 대안적인 패러다임을 제안합니다. 이러한 접근 방식은 검증의 추론 시간 확장을 가능하게 하며, 에이전트는 생성된 답변을 평가하여 반복적인 피드백과 개선 사항을 도출함으로써 스스로 발전합니다. 우리는 에이전트의 실패를 5개의 대분류와 13개의 소분류로 체계적으로 분류하는, 자동으로 구축된 'DRA 실패 분류 체계'를 기반으로 루브릭을 도출했습니다. 우리는 검증의 비대칭성을 활용하는 루브릭 기반 결과 보상 검증기인 DeepVerifier를 제안하며, 이는 메타 평가 F1 점수에서 기본 agent-as-judge 및 LLM 심사자 베이스라인보다 12%~48% 더 뛰어난 성능을 보입니다. 실질적인 자가 진화를 가능하게 하기 위해 DeepVerifier는 테스트 시간 추론 중에 플러그 앤 플레이 모듈로 통합됩니다. 검증기는 상세한 루브릭 기반 피드백을 생성하며, 이는 반복적인 부트스트랩핑을 위해 에이전트에 전달되어 추가 훈련 없이 응답을 정교화합니다. 이러한 테스트 시간 확장은 고성능 비공개 소스(closed-source) LLM으로 구동될 때 GAIA 및 XBench-DeepResearch의 까다로운 하위 데이터셋에서 8%~11%의 정확도 향상을 제공합니다. 마지막으로 오픈 소스 발전을 지원하기 위해, DRA 검증에 초점을 맞춘 4,646개의 고품질 에이전트 단계로 구성된 엄선된 지도 미세 조정 데이터셋인 DeepVerifier-4K를 공개합니다. 이 데이터셋은 성찰과 자기 비판을 강조하여 오픈 모델들이 견고한 검증 역량을 개발할 수 있도록 지원합니다.

Original Abstract

Recent advances in Deep Research Agents (DRAs) are transforming automated knowledge discovery and problem-solving. While the majority of existing efforts focus on enhancing policy capabilities via post-training, we propose an alternative paradigm: self-evolving the agent's ability by iteratively verifying the policy model's outputs, guided by meticulously crafted rubrics. This approach gives rise to the inference-time scaling of verification, wherein an agent self-improves by evaluating its generated answers to produce iterative feedback and refinements. We derive the rubrics based on an automatically constructed DRA Failure Taxonomy, which systematically classifies agent failures into five major categories and thirteen sub-categories. We present DeepVerifier, a rubrics-based outcome reward verifier that leverages the asymmetry of verification and outperforms vanilla agent-as-judge and LLM judge baselines by 12%-48% in meta-evaluation F1 score. To enable practical self-evolution, DeepVerifier integrates as a plug-and-play module during test-time inference. The verifier produces detailed rubric-based feedback, which is fed back to the agent for iterative bootstrapping, refining responses without additional training. This test-time scaling delivers 8%-11% accuracy gains on challenging subsets of GAIA and XBench-DeepResearch when powered by capable closed-source LLMs. Finally, to support open-source advancement, we release DeepVerifier-4K, a curated supervised fine-tuning dataset of 4,646 high-quality agent steps focused on DRA verification. These examples emphasize reflection and self-critique, enabling open models to develop robust verification capabilities.

2 Citations
0 Influential
10 Altmetric
52.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!