ORBIT: 제한된 예산으로 검색 에이전트를 위한 확장 가능하고 검증 가능한 데이터 생성
ORBIT: Scalable and Verifiable Data Generation for Search Agents on a Tight Budget
언어 모델(LM)과 웹 검색을 통합하여 복잡한 사용자 쿼리에 답변하는 검색 에이전트는 점점 더 중요해지고 있습니다. 다단계 검색 및 추론을 포함하는 심층 연구 작업을 위한 학습 데이터셋을 구축하는 것은 여전히 어려운 과제이며, 이는 고가의 인적 어노테이션 또는 번거로운 사전 조건 때문입니다. 본 연구에서는 유료 API 서비스를 사용하지 않고 저렴한 방식으로 생성된 2만 개의 추론 중심 쿼리와 짧고 검증 가능한 답변으로 구성된 학습 데이터셋인 ORBIT를 소개합니다. 모듈식 프레임워크는 시드 생성, 질문-답변 쌍 생성, 그리고 자체 검증 및 외부 검증의 두 단계로 구성됩니다. ORBIT는 15개 도메인을 포괄하며, 각 학습 쌍은 4~5단계의 추론을 필요로 하며, 전체 웹에서 외부 검색 검증이 필요합니다. 우리는 GRPO를 사용하여 ORBIT 데이터셋으로 Qwen3-4B를 기본 모델로 학습시키고, Wikipedia 질문 답변 작업에서 성능을 평가했습니다. 광범위한 실험 결과는 ORBIT-4B가 4B 이하의 LLM 중에서 검색 에이전트로서 뛰어난 성능을 달성했으며, 이는 합성 데이터셋의 유용성을 입증합니다. 저희의 프레임워크, 코드 및 데이터셋은 오픈 소스로 공개되어 누구나 사용할 수 있습니다.
Search agents, which integrate language models (LMs) with web search, are becoming crucial for answering complex user queries. Constructing training datasets for deep research tasks, involving multi-step retrieval and reasoning, remains challenging due to expensive human annotation, or cumbersome prerequisites. In this work, we introduce ORBIT, a training dataset with 20K reasoning-intensive queries with short verifiable answers, generated using a frugal framework without relying on paid API services. The modular framework relies on four stages: seed creation, question-answer pair generation, and two stages of verification: self and external. ORBIT spans 15 domains and each training pair requires 4-5 reasoning steps, with external search verification required from the complete web. We train Qwen3-4B as the base model on ORBIT using GRPO and evaluate it on Wikipedia question answering tasks. Extensive experiment results demonstrate that ORBIT-4B achieves strong performance among sub-4B LLMs as search agents, proving the utility of synthetic datasets. Our framework, code and datasets are open-sourced and available publicly.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.