2601.11037v1 Jan 16, 2026 cs.AI

BAPO: 신뢰할 수 있는 에이전트 검색을 위한 경계 인식 정책 최적화

BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

Shiyu Liu
Shiyu Liu
Citations: 434
h-index: 12
Yong-hao Yin
Yong-hao Yin
Citations: 143
h-index: 3
Yunbo Tang
Yunbo Tang
Citations: 0
h-index: 0
Qinggang Zhang
Qinggang Zhang
Citations: 1
h-index: 1
Bei Li
Bei Li
Citations: 36
h-index: 3
Xin Chen
Xin Chen
Citations: 20
h-index: 1
Jingang Wang
Jingang Wang
Citations: 278
h-index: 7
Xunliang Cai
Xunliang Cai
Citations: 435
h-index: 12
Jinsong Su
Jinsong Su
Citations: 34
h-index: 2
Jianhao Yan
Jianhao Yan
Citations: 23
h-index: 3

강화학습(RL) 기반 에이전트 검색은 대규모 언어 모델(LLM)이 동적 계획 및 외부 검색을 통해 복잡한 질문을 해결할 수 있게 합니다. 대규모 강화학습으로 최적화된 에이전트 정책을 통해 정확도는 크게 향상되었으나, 우리는 신뢰성 측면에서 중대한 허점을 발견했습니다. 즉, 이러한 에이전트들은 자신의 추론 경계를 인식하지 못하며, 증거가 불충분하거나 추론이 한계에 도달했을 때조차 "모르겠습니다(IDK)"라고 인정하는 경우가 드물다는 점입니다. 이러한 신뢰성의 결여는 종종 그럴듯해 보이지만 신뢰할 수 없는 답변으로 이어져, 많은 실제 시나리오에서 심각한 위험을 초래합니다. 이를 해결하기 위해, 우리는 정확도를 저해하지 않으면서 신뢰할 수 있는 경계 인식을 함양하도록 설계된 새로운 RL 프레임워크인 경계 인식 정책 최적화(BAPO)를 제안합니다. BAPO는 두 가지 핵심 구성 요소를 도입합니다. (i) 추론이 한계에 도달했을 때만 IDK 응답을 유도하는 그룹 기반 경계 인식 보상, 그리고 (ii) 모델이 IDK를 편법으로 악용하는 것을 방지하기 위해 초기 탐색 단계에서 이 보상을 전략적으로 유보하는 적응형 보상 조절기입니다. 4가지 벤치마크에 대한 광범위한 실험을 통해 BAPO가 에이전트 검색의 전반적인 신뢰성을 상당히 향상시킴을 입증했습니다.

Original Abstract

RL-based agentic search enables LLMs to solve complex questions via dynamic planning and external search. While this approach significantly enhances accuracy with agent policies optimized via large-scale reinforcement learning, we identify a critical gap in reliability: these agents fail to recognize their reasoning boundaries and rarely admit ``I DON'T KNOW'' (IDK) even when evidence is insufficient or reasoning reaches its limit. The lack of reliability often leads to plausible but unreliable answers, introducing significant risks in many real-world scenarios. To this end, we propose Boundary-Aware Policy Optimization (BAPO), a novel RL framework designed to cultivate reliable boundary awareness without compromising accuracy. BAPO introduces two key components: (i) a group-based boundary-aware reward that encourages an IDK response only when the reasoning reaches its limit, and (ii) an adaptive reward modulator that strategically suspends this reward during early exploration, preventing the model from exploiting IDK as a shortcut. Extensive experiments on four benchmarks demonstrate that BAPO substantially enhances the overall reliability of agentic search.

0 Citations
0 Influential
6 Altmetric
30.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!