Squeeze Evolve: 검증기(Verifier) 없이 진화시키는 통합 다중 모델 오케스트레이션
Squeeze Evolve: Unified Multi-Model Orchestration for Verifier-Free Evolution
본 논문에서는 검증기 없이 진화시키는 방법이 다양성과 효율성 측면에서 병목 현상을 겪는다는 것을 보여줍니다. 외부 수정 없이 반복적인 진화는 좁은 영역으로의 붕괴를 가속화하는 반면, 고비용 모델을 균일하게 사용하는 것은 컴퓨팅 자원을 낭비하고 경제적으로 비효율적입니다. 우리는 검증기 없이 진화적 추론을 수행하는 통합 다중 모델 오케스트레이션 프레임워크인 Squeeze Evolve를 소개합니다. 우리의 접근 방식은 간단한 원칙에 기반합니다. 즉, 모델의 역량을 가장 높은 한계 효용을 가진 곳에 할당합니다. 더 강력한 모델은 중요한 단계에 사용하고, 저렴한 모델은 다른 단계에서 훨씬 낮은 비용으로 사용합니다. 이러한 원칙은 다양성과 비용 효율성을 동시에 고려하면서도 경량화되어 있습니다. Squeeze Evolve는 오픈 소스, 클로즈드 소스 및 혼합 모델 배포를 자연스럽게 지원합니다. AIME 2025, HMMT 2025, LiveCodeBench V6, GPQA-Diamond, ARC-AGI-V2 및 MMMU-Pro, BabyVision과 같은 다중 모드 비전 벤치마크를 포함한 다양한 환경에서, Squeeze Evolve는 단일 모델 진화보다 비용-성능 측면에서 우수한 성능을 보이며, 여러 작업에서 새로운 최고 성능을 달성합니다. 실험 결과, Squeeze Evolve는 API 비용을 최대 약 3배 절감하고, 고정 예산 환경에서의 처리량을 최대 약 10배 향상시킵니다. 또한, 탐색 작업에서 Squeeze Evolve는 검증기 기반 진화 방법과 동등하거나 더 나은 성능을 보이는 최초의 검증기 없는 진화 방법입니다.
We show that verifier-free evolution is bottlenecked by both diversity and efficiency: without external correction, repeated evolution accelerates collapse toward narrow modes, while the uniform use of a high-cost model wastes compute and quickly becomes economically impractical. We introduce Squeeze Evolve, a unified multi-model orchestration framework for verifier-free evolutionary inference. Our approach is guided by a simple principle: allocate model capability where it has the highest marginal utility. Stronger models are reserved for high-impact stages, while cheaper models handle the other stages at much lower costs. This principle addresses diversity and cost-efficiency jointly while remaining lightweight. Squeeze Evolve naturally supports open-source, closed-source, and mixed-model deployments. Across AIME 2025, HMMT 2025, LiveCodeBench V6, GPQA-Diamond, ARC-AGI-V2, and multimodal vision benchmarks, such as MMMU-Pro and BabyVision, Squeeze Evolve consistently improves the cost-capability frontier over single-model evolution and achieves new state-of-the-art results on several tasks. Empirically, Squeeze Evolve reduces API cost by up to $\sim$3$\times$ and increases fixed-budget serving throughput by up to $\sim$10$\times$. Moreover, on discovery tasks, Squeeze Evolve is the first verifier-free evolutionary method to match, and in some cases exceed, the performance of verifier-based evolutionary methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.