LLM 검색 에이전트를 위한 추론 시간 예산 제어
Inference-Time Budget Control for LLM Search Agents
LLM 검색 에이전트는 점점 더 많은 도구를 추론 시간에 활용하지만, 이러한 에이전트의 동작은 종종 도구 호출 횟수와 생성되는 토큰 수에 대한 엄격한 제한으로 인해 제약됩니다. 이러한 이중 제약 조건 하에서 더 나은 답변을 얻으려면 강력한 모델뿐만 아니라 어떤 검색 액션에 다음 예산 단위를 할당할지, 그리고 축적된 증거가 최종 답변을 결정하기에 충분한 수준에 도달했는지 여부를 명시적으로 제어해야 합니다. 본 연구에서는 다단계 질문 답변(QA) 문제를 다루며, 이를 두 단계로 구성된 추론 시간 예산 제어 문제로 정의합니다. 검색 시간에, 제어기는 각 실행 가능한 액션에 대해 작업 수준의 정보 가치(VOI) 점수를 할당합니다. 이 점수는 현재 검색 상태와 남은 이중 예산을 기준으로 작업 가치의 한계적인 값을 추정하며, 이 점수를 사용하여 검색, 분해, 답변 확정 중에서 선택합니다. 검색 후, 증거 기반의 최종화 모듈은 트래jectory 답변과 개선된 후보를 비교하며, 잔여 오류가 낮은 위험의 답변 형식 오류로 보이는 경우에만 답변을 수정합니다. 본 연구는 4개의 다단계 QA 벤치마크, 3개의 LLM 백본, 그리고 4개의 예산 수준에서 동일한 엄격한 이중 예산 프로토콜 하에서 4개의 감사된 기준 모델보다 전반적으로 성능이 향상되었음을 보여줍니다. 분석 결과, 검색 시간의 예산 제어, 특히 예산 의존적인 페널티가 주요 성능 향상을 제공하며, 답변 시간의 제어는 검색 경로가 이미 충분한 경우에 주로 효과적임을 확인했습니다. 이러한 결과는 LLM 검색 에이전트를 위한 추론 시간 예산 제어가 검색 과정에서 예산이 어떻게 사용되는지, 그리고 최종 답변이 어떻게 결정되는지를 모두 관리해야 함을 시사합니다.
LLM search agents increasingly rely on tools at inference time, but their trajectories are often constrained by hard limits on both tool calls and generated tokens. Under such dual budgets, better answers require not only stronger models, but also explicit control over which search action should receive the next budget unit and when the accumulated evidence is sufficient to commit a final answer. We study this problem in multi-hop question answering (QA) and formulate it as two-stage inference-time budget control. At search time, our controller assigns each feasible action a task-level Value-of-Information (VOI) score, defined as an operational estimate of marginal task value per unit budget under the current search state and remaining dual budget, and uses this score to choose among retrieval, decomposition, and answer commitment. After search, a selective evidence-grounded finalizer compares the trajectory answer with a refined candidate and rewrites only when the residual error appears to be a low-risk answer-form error. Across four multi-hop QA benchmarks, three LLM backbones, and four budget levels, the method yields positive aggregate gains over four audited baselines under the same hard dual-budget protocol. Ablations show that search-time budget control, especially budget-dependent penalty, provides the main performance gain, while answer-time control helps mainly when the retrieval path is already adequate. These results suggest that inference-time budget control for LLM search agents should govern both how budget is spent during search and how the final answer is committed.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.