2602.21227v1 Feb 04, 2026 cs.CL

예산 기반 에이전트 라우팅: 경계 가이드 학습을 통한 접근

Budget-Aware Agentic Routing via Boundary-Guided Training

Menglin Xia
Menglin Xia
Citations: 298
h-index: 6
Xuchao Zhang
Xuchao Zhang
Citations: 442
h-index: 11
Saravan Rajmohan
Saravan Rajmohan
Citations: 192
h-index: 9
Caiqi Zhang
Caiqi Zhang
Citations: 16
h-index: 2
Daniel Madrigal
Daniel Madrigal
Citations: 34
h-index: 2
Ankur Mallick
Ankur Mallick
Citations: 305
h-index: 8
Samuel Kessler
Samuel Kessler
Citations: 2
h-index: 1
Victor Ruehle
Victor Ruehle
Citations: 6
h-index: 1

대규모 언어 모델(LLM)이 장기적인 워크플로우를 수행하는 자율 에이전트로 발전함에 따라, 모든 단계에서 고성능 모델을 사용하는 것은 경제적으로 지속 불가능합니다. 모델 라우팅은 단일 턴 쿼리에 효과적이지만, 에이전트 라우팅은 순차적이고 경로 의존적인 문제이며, 초기 오류는 누적되고, 피드백은 종종 에피소드의 끝에 제공되며, 배포 시에는 종종 엄격한 작업별 예산 제한이 요구됩니다. 우리는 작업별 예산 제한 내에서 비용 효율성과 성공률을 최적화하기 위해 각 단계에서 저렴한 모델과 비싼 모델 중에서 선택하는 예산 기반 에이전트 라우팅을 제안합니다. 또한, 우리는 두 가지 경계 정책(항상 작은 모델 사용 vs. 항상 큰 모델 사용)을 활용하여 난이도 분류를 구축하고, 희소한 보상 환경에서 학습을 안정화하는 경계 가이드 학습을 제안합니다. 저희 방법은 비용 효율적인 경로를 계층화하여 샘플링한 경계 가이드된 SFT 데이터를 사용하여 초기 학습을 진행한 후, 경계 상대적인 보상과 참조 기반 이점을 결합하여 저렴한 모델의 실패를 방지하는 경계 가이드 정책 최적화(BoPO)를 적용합니다. 실험 결과, 저희 방법은 효율성 지표를 향상시키며, 상당한 비용 절감과 함께 강력한 기존 라우팅 방법과 동등한 성능을 보이고, 엄격한 추론 시간 예산 제약 조건에서도 일반화 성능을 입증합니다. 전반적으로, 저희 연구는 에이전트 라우팅을 위한 기본적인 프레임워크를 제시하며, 정적 모델 선택에서 벗어나 동적이고 예산 기반의 순차적 의사 결정 패러다임으로 전환합니다.

Original Abstract

As large language models (LLMs) evolve into autonomous agents that execute long-horizon workflows, invoking a high-capability model at every step becomes economically unsustainable. While model routing is effective for single-turn queries, agentic routing is a sequential, path-dependent problem: early mistakes compound, feedback is often at the end of the episode, and deployments often demand strict per-task spending limits. We propose Budget-Aware Agentic Routing, which selects between a cheap and an expensive model at each step to optimize the cost--success frontier and to operate under strict per-task budgets. We propose Boundary-Guided Training, which leverages two boundary policies (always-small vs.\ always-large) to build a difficulty taxonomy and to anchor learning under sparse rewards. Our approach warms start with boundary-guided SFT data synthesis via stratified sampling of cost-efficient trajectories, then applies Boundary-Guided Policy Optimization (BoPO), combining boundary-relative rewards with a reference-guided advantage to avoid degenerate cheap-failure solutions. Experiment results show that our method improves the efficiency frontier, matching strong routing baselines at substantially lower cost while demonstrating generalization to strict inference-time budget constraints. Overall, our work establishes a foundational framework for agentic routing, shifting the paradigm from static model selection to dynamic, budget-aware sequential decision-making.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!