2602.07738v2 Feb 08, 2026 cs.LG

추론 시간 정렬을 위한 학습 가능한 체르노프 기준선

Learnable Chernoff Baselines for Inference-Time Alignment

Yu-Xiang Wang
Yu-Xiang Wang
Citations: 0
h-index: 0
Sunil Madhow
Sunil Madhow
Citations: 1
h-index: 1
Yuchen Liang
Yuchen Liang
Citations: 51
h-index: 4
N. Shroff
N. Shroff
Citations: 185
h-index: 6
Yingbin Liang
Yingbin Liang
Citations: 96
h-index: 4

본 연구에서는 생성 모델에 대한 추론 시간 보상 기반 정렬 방법을 다룹니다. 기존 방법들은 종종 특정 구조에 대한 수정이나 계산 비용이 많이 드는 추론 절차에 의존합니다. 우리는 KL 정규화된 보상 정렬에서 발생하는 지수적으로 기울어진 커널에서 효율적이고 근사적으로 샘플링하는 방법인 학습 가능한 체르노프 기준선(LCB)을 제안합니다. LCB는 사전 훈련된 모델에 대한 블랙박스 샘플링만 사용하며, 적응적으로 선택된 허용 확률을 사용하는 일종의 거부 샘플링을 구현하여 추론 계산량을 세밀하게 제어할 수 있습니다. 우리는 LCB가 이상적인 정렬된 모델에 대한 전체 변동(total-variation) 보장을 제공하며, 연속 및 이산 확산 환경 모두에서 LCB 샘플링이 이상적인 거부 샘플링과 유사한 결과를 나타내면서 사전 훈련된 모델에 대한 쿼리 횟수를 현저히 줄일 수 있음을 보여줍니다.

Original Abstract

We study inference-time reward-guided alignment for generative models. Existing methods often rely on either architecture-specific adaptations or computationally costly inference procedures. We introduce Learnable Chernoff Baselines (LCBs) as a method for efficiently and approximately sampling from the exponentially tilted kernels that arise from KL-regularized reward alignment. Using only black-box sampling access to the pretrained model, LCBs implement a form of rejection sampling with adaptively selected acceptance probabilities, which allows fine-grained control over inference-compute scaling. We establish total-variation guarantees to the ideal aligned model, and demonstrate in both continuous and discrete diffusion settings that LCB sampling closely matches ideal rejection sampling while using substantially fewer queries to the pretrained model.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!