2604.01195v2 Apr 01, 2026 cs.CL

ORBIT: 제한된 예산으로 검색 에이전트를 위한 확장 가능하고 검증 가능한 데이터 생성

ORBIT: Scalable and Verifiable Data Generation for Search Agents on a Tight Budget

Zijian Chen
Zijian Chen
Citations: 113
h-index: 3
Nandan Thakur
Nandan Thakur
University of Waterloo
Citations: 3,018
h-index: 18
Xueguang Ma
Xueguang Ma
University of Waterloo
Citations: 6,409
h-index: 26
Jimmy Lin
Jimmy Lin
Citations: 4
h-index: 2

언어 모델(LM)과 웹 검색을 통합하여 복잡한 사용자 쿼리에 답변하는 검색 에이전트는 점점 더 중요해지고 있습니다. 다단계 검색 및 추론을 포함하는 심층 연구 작업을 위한 학습 데이터셋을 구축하는 것은 여전히 어려운 과제이며, 이는 고가의 인적 어노테이션 또는 번거로운 사전 조건 때문입니다. 본 연구에서는 유료 API 서비스를 사용하지 않고 저렴한 방식으로 생성된 2만 개의 추론 중심 쿼리와 짧고 검증 가능한 답변으로 구성된 학습 데이터셋인 ORBIT를 소개합니다. 모듈식 프레임워크는 시드 생성, 질문-답변 쌍 생성, 그리고 자체 검증 및 외부 검증의 두 단계로 구성됩니다. ORBIT는 15개 도메인을 포괄하며, 각 학습 쌍은 4~5단계의 추론을 필요로 하며, 전체 웹에서 외부 검색 검증이 필요합니다. 우리는 GRPO를 사용하여 ORBIT 데이터셋으로 Qwen3-4B를 기본 모델로 학습시키고, Wikipedia 질문 답변 작업에서 성능을 평가했습니다. 광범위한 실험 결과는 ORBIT-4B가 4B 이하의 LLM 중에서 검색 에이전트로서 뛰어난 성능을 달성했으며, 이는 합성 데이터셋의 유용성을 입증합니다. 저희의 프레임워크, 코드 및 데이터셋은 오픈 소스로 공개되어 누구나 사용할 수 있습니다.

Original Abstract

Search agents, which integrate language models (LMs) with web search, are becoming crucial for answering complex user queries. Constructing training datasets for deep research tasks, involving multi-step retrieval and reasoning, remains challenging due to expensive human annotation, or cumbersome prerequisites. In this work, we introduce ORBIT, a training dataset with 20K reasoning-intensive queries with short verifiable answers, generated using a frugal framework without relying on paid API services. The modular framework relies on four stages: seed creation, question-answer pair generation, and two stages of verification: self and external. ORBIT spans 15 domains and each training pair requires 4-5 reasoning steps, with external search verification required from the complete web. We train Qwen3-4B as the base model on ORBIT using GRPO and evaluate it on Wikipedia question answering tasks. Extensive experiment results demonstrate that ORBIT-4B achieves strong performance among sub-4B LLMs as search agents, proving the utility of synthetic datasets. Our framework, code and datasets are open-sourced and available publicly.

0 Citations
0 Influential
13 Altmetric
65.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!