2603.05218v1 Mar 05, 2026 cs.AI

KARL: 강화 학습을 통한 지식 에이전트

KARL: Knowledge Agents via Reinforcement Learning

Shubham Toshniwal
Shubham Toshniwal
Citations: 4,541
h-index: 23
Jose Javier Gonzalez Ortiz
Jose Javier Gonzalez Ortiz
Citations: 269
h-index: 1
Jonathan D. Chang
Jonathan D. Chang
Citations: 169
h-index: 6
Andrew Drozdov
Andrew Drozdov
University of Massachusetts Amherst
Citations: 731
h-index: 13
Owen Oertell
Owen Oertell
Citations: 159
h-index: 6
Alex Trott
Alex Trott
Citations: 57
h-index: 3
J. Portes
J. Portes
Citations: 355
h-index: 5
Abhay Gupta
Abhay Gupta
Citations: 2
h-index: 1
Pallavi Koppol
Pallavi Koppol
Citations: 94
h-index: 4
Ashutosh Baheti
Ashutosh Baheti
Citations: 347
h-index: 9
Sean Kulinski
Sean Kulinski
Citations: 85
h-index: 4
Ivan Zhou
Ivan Zhou
Citations: 0
h-index: 0
Irene Dea
Irene Dea
Citations: 66
h-index: 2
Krista Opsahl-Ong
Krista Opsahl-Ong
Citations: 22
h-index: 1
Simon Favreau-Lessard
Simon Favreau-Lessard
Citations: 0
h-index: 0
Sean Owen
Sean Owen
Citations: 2,422
h-index: 5
Arnav Singhvi
Arnav Singhvi
Citations: 843
h-index: 4
Xabi Andrade
Xabi Andrade
Citations: 0
h-index: 0
Cindy Wang
Cindy Wang
Citations: 2,033
h-index: 1
Kartik K. Sreenivasan
Kartik K. Sreenivasan
Citations: 2,404
h-index: 20
Sam Havens
Sam Havens
Citations: 363
h-index: 6
Jialu Liu
Jialu Liu
Citations: 79
h-index: 5
P. Deniro
P. Deniro
Citations: 2
h-index: 1
Michael Bendersky
Michael Bendersky
Citations: 2,477
h-index: 11
Jonathan Frankle
Jonathan Frankle
Citations: 626
h-index: 7
Wen Sun
Wen Sun
Citations: 160
h-index: 6

본 논문에서는 강화 학습을 통해 기업 검색 에이전트를 훈련시키는 시스템을 제시하며, 다양한 난이도 높은 에이전트 기반 검색 작업에서 최첨단 성능을 달성합니다. 본 연구는 다음과 같은 네 가지 핵심 기여를 합니다. 첫째, 제약 조건 기반 엔티티 검색, 문서 간 보고서 합성, 표 형태의 수치 추론, 완전한 엔티티 검색, 기술 문서에 대한 절차적 추론, 내부 기업 메모에 대한 사실 집계 등 6가지 고유한 검색 영역을 포괄하는 다중 기능 평가 도구인 KARLBench를 소개합니다. 둘째, 다양한 검색 행동으로 훈련된 모델이 단일 벤치마크에 최적화된 모델보다 훨씬 더 나은 일반화 성능을 보임을 보여줍니다. 셋째, 장기적인 추론과 도구 사용을 활용하여 다양하고, 근거가 명확하며, 고품질의 훈련 데이터를 생성하는 에이전트 기반 합성 파이프라인을 개발했으며, 점진적으로 성능이 향상되는 모델로부터 반복적으로 부트스트래핑합니다. 넷째, 샘플 효율성이 뛰어나고, 훈련-추론 엔진 간의 불일치에 강하며, 이상치 데이터 일반화가 가능한 다중 작업 훈련으로 자연스럽게 확장되는 반복적인 대규모 배치 오프라인 강화 학습 기반의 새로운 훈련 패러다임을 제안합니다. Claude 4.6 및 GPT 5.2와 비교했을 때, KARL은 KARLBench에서 비용-품질 및 지연 시간-품질 균형 측면에서 파레토 최적의 성능을 보이며, 훈련 중에 이상치 데이터로 간주된 작업에서도 뛰어난 성능을 보입니다. 충분한 테스트 시간 컴퓨팅 리소스를 확보할 수 있다면, KARL은 가장 강력한 폐쇄형 모델을 능가합니다. 이러한 결과는 맞춤형 합성 데이터와 다중 작업 강화 학습의 조합이 근거 기반 추론을 위한 비용 효율적이고 고성능의 지식 에이전트를 가능하게 한다는 것을 보여줍니다.

Original Abstract

We present a system for training enterprise search agents via reinforcement learning that achieves state-of-the-art performance across a diverse suite of hard-to-verify agentic search tasks. Our work makes four core contributions. First, we introduce KARLBench, a multi-capability evaluation suite spanning six distinct search regimes, including constraint-driven entity search, cross-document report synthesis, tabular numerical reasoning, exhaustive entity retrieval, procedural reasoning over technical documentation, and fact aggregation over internal enterprise notes. Second, we show that models trained across heterogeneous search behaviors generalize substantially better than those optimized for any single benchmark. Third, we develop an agentic synthesis pipeline that employs long-horizon reasoning and tool use to generate diverse, grounded, and high-quality training data, with iterative bootstrapping from increasingly capable models. Fourth, we propose a new post-training paradigm based on iterative large-batch off-policy RL that is sample efficient, robust to train-inference engine discrepancies, and naturally extends to multi-task training with out-of-distribution generalization. Compared to Claude 4.6 and GPT 5.2, KARL is Pareto-optimal on KARLBench across cost-quality and latency-quality trade-offs, including tasks that were out-of-distribution during training. With sufficient test-time compute, it surpasses the strongest closed models. These results show that tailored synthetic data in combination with multi-task reinforcement learning enables cost-efficient and high-performing knowledge agents for grounded reasoning.

0 Citations
0 Influential
11.5 Altmetric
57.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!