전략 경매를 통한 소규모 에이전트 확장
Scaling Small Agents Through Strategy Auctions
소규모 언어 모델은 비용 효율적인 에이전트 AI 접근 방식으로 주목받고 있으며, 많은 연구자들이 이러한 모델이 에이전트 작업에 충분히 적합하다고 주장합니다. 그러나, 소규모 에이전트가 간단한 작업에서는 대규모 에이전트와 유사한 성능을 보이지만, 작업 복잡도가 증가함에 따라 성능이 어떻게 변하는지, 대규모 모델이 언제 필요한지, 그리고 소규모 에이전트를 장기적인 작업에 어떻게 더 효과적으로 활용할 수 있는지에 대한 명확한 이해가 부족합니다. 본 연구에서는, 심층 탐색 및 코딩 작업에서 소규모 에이전트의 성능이 작업 복잡도에 따라 확장되지 않는다는 것을 실험적으로 보여줍니다. 또한, 자유 계약자 시장에서 영감을 받은 에이전트 프레임워크인 '전략 경매를 통한 작업 효율성(SALE)'을 소개합니다. SALE에서는 에이전트들이 짧은 전략 계획을 제시하고, 체계적인 비용-가치 메커니즘에 의해 평가되며, 공유된 경매 메모리를 통해 개선됩니다. 이를 통해 각 작업에 맞는 에이전트를 선택하고, 별도의 라우터를 훈련하거나 모든 모델을 완수하지 않고도 지속적인 자체 개선이 가능합니다. 다양한 복잡도의 심층 탐색 및 코딩 작업에서 SALE은 가장 큰 에이전트에 대한 의존도를 53% 줄이고, 전체 비용을 35% 낮추며, 최종 실행 과정 외의 미미한 오버헤드로 가장 큰 에이전트의 pass@1 성능을 꾸준히 향상시켰습니다. 반면, 작업 설명을 기반으로 하는 기존 라우터는 대규모 에이전트보다 성능이 낮거나 비용을 절감하지 못하는 경우가 많으며, 이는 에이전트 작업에 적합하지 않음을 시사합니다. 이러한 결과는 소규모 에이전트가 복잡한 작업에는 부족할 수 있지만, 조정된 작업 할당 및 테스트 시점의 자체 개선을 통해 효과적으로 '확장'될 수 있음을 보여줍니다. 더 나아가, 본 연구는 에이전트 AI를 시스템 수준에서 바라보는 관점을 제시하며, 성능 향상은 단순히 더 큰 개별 모델에서 비롯되는 것이 아니라, 다양한 에이전트를 효율적이고 적응적인 생태계로 구성하는 시장 기반의 조정 메커니즘에서 비롯된다는 점을 강조합니다.
Small language models are increasingly viewed as a promising, cost-effective approach to agentic AI, with proponents claiming they are sufficiently capable for agentic workflows. However, while smaller agents can closely match larger ones on simple tasks, it remains unclear how their performance scales with task complexity, when large models become necessary, and how to better leverage small agents for long-horizon workloads. In this work, we empirically show that small agents' performance fails to scale with task complexity on deep search and coding tasks, and we introduce Strategy Auctions for Workload Efficiency (SALE), an agent framework inspired by freelancer marketplaces. In SALE, agents bid with short strategic plans, which are scored by a systematic cost-value mechanism and refined via a shared auction memory, enabling per-task routing and continual self-improvement without training a separate router or running all models to completion. Across deep search and coding tasks of varying complexity, SALE reduces reliance on the largest agent by 53%, lowers overall cost by 35%, and consistently improves upon the largest agent's pass@1 with only a negligible overhead beyond executing the final trace. In contrast, established routers that rely on task descriptions either underperform the largest agent or fail to reduce cost -- often both -- underscoring their poor fit for agentic workflows. These results suggest that while small agents may be insufficient for complex workloads, they can be effectively "scaled up" through coordinated task allocation and test-time self-improvement. More broadly, they motivate a systems-level view of agentic AI in which performance gains come less from ever-larger individual models and more from market-inspired coordination mechanisms that organize heterogeneous agents into efficient, adaptive ecosystems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.