추론 시간 정렬을 위한 학습 가능한 체르노프 기준선
Learnable Chernoff Baselines for Inference-Time Alignment
본 연구에서는 생성 모델에 대한 추론 시간 보상 기반 정렬 방법을 다룹니다. 기존 방법들은 종종 특정 구조에 대한 수정이나 계산 비용이 많이 드는 추론 절차에 의존합니다. 우리는 KL 정규화된 보상 정렬에서 발생하는 지수적으로 기울어진 커널에서 효율적이고 근사적으로 샘플링하는 방법인 학습 가능한 체르노프 기준선(LCB)을 제안합니다. LCB는 사전 훈련된 모델에 대한 블랙박스 샘플링만 사용하며, 적응적으로 선택된 허용 확률을 사용하는 일종의 거부 샘플링을 구현하여 추론 계산량을 세밀하게 제어할 수 있습니다. 우리는 LCB가 이상적인 정렬된 모델에 대한 전체 변동(total-variation) 보장을 제공하며, 연속 및 이산 확산 환경 모두에서 LCB 샘플링이 이상적인 거부 샘플링과 유사한 결과를 나타내면서 사전 훈련된 모델에 대한 쿼리 횟수를 현저히 줄일 수 있음을 보여줍니다.
We study inference-time reward-guided alignment for generative models. Existing methods often rely on either architecture-specific adaptations or computationally costly inference procedures. We introduce Learnable Chernoff Baselines (LCBs) as a method for efficiently and approximately sampling from the exponentially tilted kernels that arise from KL-regularized reward alignment. Using only black-box sampling access to the pretrained model, LCBs implement a form of rejection sampling with adaptively selected acceptance probabilities, which allows fine-grained control over inference-compute scaling. We establish total-variation guarantees to the ideal aligned model, and demonstrate in both continuous and discrete diffusion settings that LCB sampling closely matches ideal rejection sampling while using substantially fewer queries to the pretrained model.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.