Dr. Zero: 학습 데이터 없는 자가 진화 검색 에이전트
Dr. Zero: Self-Evolving Search Agents without Training Data
고품질 데이터를 확보하기가 점점 더 어려워짐에 따라, 데이터가 필요 없는(data-free) 자가 진화가 유망한 패러다임으로 부상했습니다. 이 접근 방식은 대규모 언어 모델(LLM)이 복잡한 문제를 자율적으로 생성하고 해결하게 하여 추론 능력을 향상시킬 수 있게 합니다. 그러나 멀티 턴(multi-turn) 검색 에이전트는 질문의 다양성이 제한적이고 다단계 추론 및 도구 사용에 상당한 연산 자원이 필요하기 때문에 데이터 없는 자가 진화에 어려움을 겪습니다. 본 연구에서는 검색 에이전트가 어떠한 학습 데이터 없이도 효과적으로 자가 진화할 수 있도록 하는 프레임워크인 Dr. Zero를 소개합니다. 특히, 우리는 제안자(proposer)가 동일한 기본 모델에서 초기화된 해결자(solver)를 훈련시키기 위해 다양한 질문을 생성하는 자가 진화 피드백 루프를 설계했습니다. 해결자가 진화함에 따라 제안자가 점점 더 어렵지만 해결 가능한 작업을 생성하도록 유도하여, 두 에이전트 모두를 고도화하는 자동화된 커리큘럼을 구축합니다. 또한 훈련 효율성을 높이기 위해 홉 그룹 상대 정책 최적화(Hop-grouped Relative Policy Optimization, HRPO)를 도입했습니다. 이 방법은 구조적으로 유사한 질문들을 클러스터링하여 그룹 수준의 베이스라인을 구축함으로써, 각 쿼리의 개별 난이도와 해결 가능성을 평가하는 데 드는 샘플링 오버헤드를 효과적으로 최소화합니다. 결과적으로 HRPO는 성능이나 안정성을 저하시키지 않으면서 해결자 훈련에 필요한 연산 요구량을 크게 줄여줍니다. 광범위한 실험 결과는 데이터 없는 Dr. Zero가 완전 지도 학습된 검색 에이전트와 대등하거나 이를 능가함을 보여주며, 복잡한 추론 및 검색 능력이 오직 자가 진화만으로도 발현될 수 있음을 입증합니다.
As high-quality data becomes increasingly difficult to obtain, data-free self-evolution has emerged as a promising paradigm. This approach allows large language models (LLMs) to autonomously generate and solve complex problems, thereby improving their reasoning capabilities. However, multi-turn search agents struggle in data-free self-evolution due to the limited question diversity and the substantial compute required for multi-step reasoning and tool using. In this work, we introduce Dr. Zero, a framework enabling search agents to effectively self-evolve without any training data. In particular, we design a self-evolution feedback loop where a proposer generates diverse questions to train a solver initialized from the same base model. As the solver evolves, it incentivizes the proposer to produce increasingly difficult yet solvable tasks, thus establishing an automated curriculum to refine both agents. To enhance training efficiency, we also introduce hop-grouped relative policy optimization (HRPO). This method clusters structurally similar questions to construct group-level baselines, effectively minimizing the sampling overhead in evaluating each query's individual difficulty and solvability. Consequently, HRPO significantly reduces the compute requirements for solver training without compromising performance or stability. Extensive experiment results demonstrate that the data-free Dr. Zero matches or surpasses fully supervised search agents, proving that complex reasoning and search capabilities can emerge solely through self-evolution.
AI Analysis
Korean Summary
Key Innovations
- 홉 그룹화 상대 정책 최적화(HRPO): 구조적으로 유사한 질문(홉 수 기준)을 클러스터링하여 그룹 수준의 기준선을 생성함으로써 샘플링 오버헤드를 최소화하고 훈련 효율성을 극대화함
- 자가 진화 피드백 루프: 제안자(Proposer)와 해결자(Solver)가 상호 작용하며, 해결자의 능력이 향상됨에 따라 제안자가 점진적으로 더 어려운 문제를 생성하도록 하는 자동화된 커리큘럼 구축
- 난이도 유도 보상 함수: 해결자의 정답률을 기반으로 너무 쉽거나 불가능한 문제가 아닌, '해결 가능하면서도 도전적인' 문제를 생성하도록 장려함
- 다중 턴 도구 사용 롤아웃: 제안자가 단순히 텍스트만 생성하는 것이 아니라, 실제 검색 엔진을 사용하여 정보의 존재 여부와 추론 경로를 검증하며 고품질의 문제를 생성하는 파이프라인
Learning & Inference Impact
학습 측면에서는 HRPO를 통해 기존 GRPO 방식이 요구하던 고비용의 중첩 샘플링(Nested Sampling) 문제를 해결하여 계산 리소스를 크게 절감하면서도 안정적인 학습을 가능하게 했습니다. 또한, 제안자와 해결자의 경쟁적 공진화(Co-evolution)는 모델이 단순한 패턴 암기에 그치지 않고 지속적으로 복잡한 추론 능력을 확장하도록 유도합니다. 추론 측면에서는 별도의 인간 데이터 튜닝 없이도 복잡한 다중 홉(Multi-hop) 질문에 대해 정교한 검색 쿼리를 생성하고 정보를 조합하여 논리적으로 답을 도출하는 능력을 갖추게 되어, 오픈 도메인 질의응답 작업에서 기존 지도 학습 모델을 능가하는 성능을 발휘합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.