PETS: 효율적인 테스트 시점 자기 일관성을 위한 최적의 경로 할당을 위한 체계적인 프레임워크
PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency
테스트 시점 스케일링은 확률적 추론 경로를 집계하여 모델 성능을 향상시킬 수 있습니다. 그러나 제한된 예산 하에서 샘플 효율적인 테스트 시점 자기 일관성을 달성하는 것은 여전히 해결해야 할 과제입니다. 본 논문에서는 PETS (Principled and Efficient Test-Time Self-Consistency, 체계적이고 효율적인 테스트 시점 자기 일관성)를 소개합니다. PETS는 최적화 프레임워크를 통해 경로 할당에 대한 체계적인 연구를 수행합니다. 우리의 접근 방식의 핵심은 새로운 측정 지표인 '자기 일관성률'이며, 이는 무제한 예산 하에서의 다수결 투표 결과와 일치하는 정도를 나타냅니다. 이러한 제형은 샘플 효율적인 테스트 시점 할당에 대한 이론적 기반을 제공하며 엄격한 분석을 가능하게 합니다. 우리는 오프라인 및 온라인 환경 모두에서 연구를 진행합니다. 오프라인 환경에서는 모든 질문이 미리 알려진 경우, 추론 과정을 작업자로 모델링하여 경로 할당을 크라우드소싱과 연결합니다. 이러한 관점은 풍부한 기존 이론을 활용하여 이론적 보장을 제공하고 효율적인 다수결 투표 기반 할당 알고리즘을 개발합니다. 온라인 스트리밍 환경에서는 질문이 순차적으로 도착하고 즉시 할당해야 하는 경우, 오프라인 프레임워크에서 영감을 받은 새로운 방법을 제안합니다. 우리의 접근 방식은 예산을 질문의 난이도에 맞게 조정하면서 강력한 이론적 보장과 계산 효율성을 유지합니다. 실험 결과, PETS는 일관된 할당 방식보다 우수한 성능을 보였습니다. GPQA 데이터셋에서 PETS는 오프라인 및 온라인 환경 모두에서 완벽한 자기 일관성을 달성했으며, 일관된 할당 방식에 비해 샘플링 예산을 최대 75% (오프라인) 및 55% (온라인) 줄였습니다. 코드 및 관련 정보는 https://github.com/ZDCSlab/PETS 에서 확인할 수 있습니다.
Test-time scaling can improve model performance by aggregating stochastic reasoning trajectories. However, achieving sample-efficient test-time self-consistency under a limited budget remains an open challenge. We introduce PETS (Principled and Efficient Test-TimeSelf-Consistency), which initiates a principled study of trajectory allocation through an optimization framework. Central to our approach is the self-consistency rate, a new measure defined as agreement with the infinite-budget majority vote. This formulation makes sample-efficient test-time allocation theoretically grounded and amenable to rigorous analysis. We study both offline and online settings. In the offline regime, where all questions are known in advance, we connect trajectory allocation to crowdsourcing, a classic and well-developed area, by modeling reasoning traces as workers. This perspective allows us to leverage rich existing theory, yielding theoretical guarantees and an efficient majority-voting-based allocation algorithm. In the online streaming regime, where questions arrive sequentially and allocations must be made on the fly, we propose a novel method inspired by the offline framework. Our approach adapts budgets to question difficulty while preserving strong theoretical guarantees and computational efficiency. Experiments show that PETS consistently outperforms uniform allocation. On GPQA, PETS achieves perfect self-consistency in both settings while reducing the sampling budget by up to 75% (offline) and 55% (online) relative to uniform allocation. Code is available at https://github.com/ZDCSlab/PETS.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.