SearchGym: 비용 효율적이고 고정밀 환경 시뮬레이션을 통한 실세계 검색 에이전트의 초기 학습
SearchGym: Bootstrapping Real-World Search Agents via Cost-Effective and High-Fidelity Environment Simulation
검색 에이전트는 개방형, 지식 집약적인 추론 문제를 해결하는 데 중요한 패러다임으로 부상했습니다. 그러나 강화 학습(RL)을 통해 이러한 에이전트를 훈련하는 것은 심각한 딜레마에 직면합니다. 상용 웹 API와 직접 상호 작용하는 것은 매우 비싸고, 정적 데이터 스냅샷에 의존하는 것은 데이터 불일치로 인해 노이즈를 발생시키는 경우가 많습니다. 이러한 불일치는 잘못된 추론을 처벌하거나 환각을 보상하는 등 왜곡된 보상 신호를 생성하여 훈련을 불안정하게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 견고한 검색 에이전트를 초기 학습하도록 설계된 시뮬레이션 환경인 SearchGym을 제안합니다. SearchGym은 엄격한 생성 파이프라인을 사용하여 검증 가능한 지식 그래프와 정렬된 문서 코퍼스를 구축하여 모든 추론 작업이 사실에 기반하고 엄격하게 해결 가능하도록 보장합니다. 이러한 제어 가능한 환경을 기반으로, 우리는 SearchGym-RL이라는 커리큘럼 학습 방법론을 도입합니다. 이 방법론은 정제된 피드백을 통해 에이전트 정책을 점진적으로 최적화하여 기본적인 상호 작용에서 복잡하고 장기적인 계획까지 발전시킵니다. Llama 및 Qwen 패밀리를 대상으로 한 광범위한 실험 결과, 강력한 시뮬레이션-실세계 일반화 성능을 확인했습니다. 특히, SearchGym 내에서 훈련된 Qwen2.5-7B-Base 모델은 웹 기반 ASearcher 기준 모델보다 평균 10.6%의 상대적인 성능 향상을 보이며, 9개의 다양한 벤치마크에서 우수한 성능을 보였습니다. 우리의 결과는 고정밀 시뮬레이션이 유능한 검색 에이전트를 개발하는 데 있어 확장 가능하고 매우 비용 효율적인 방법론임을 입증합니다.
Search agents have emerged as a pivotal paradigm for solving open-ended, knowledge-intensive reasoning tasks. However, training these agents via Reinforcement Learning (RL) faces a critical dilemma: interacting with live commercial Web APIs is prohibitively expensive, while relying on static data snapshots often introduces noise due to data misalignment. This misalignment generates corrupted reward signals that destabilize training by penalizing correct reasoning or rewarding hallucination. To address this, we propose SearchGym, a simulation environment designed to bootstrap robust search agents. SearchGym employs a rigorous generative pipeline to construct a verifiable knowledge graph and an aligned document corpus, ensuring that every reasoning task is factually grounded and strictly solvable. Building on this controllable environment, we introduce SearchGym-RL, a curriculum learning methodology that progressively optimizes agent policies through purified feedback, evolving from basic interactions to complex, long-horizon planning. Extensive experiments across the Llama and Qwen families demonstrate strong Sim-to-Real generalization. Notably, our Qwen2.5-7B-Base model trained within SearchGym surpasses the web-enhanced ASearcher baseline across nine diverse benchmarks by an average relative margin of 10.6%. Our results validate that high-fidelity simulation serves as a scalable and highly cost-effective methodology for developing capable search agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.