BEAR: 대규모 언어 모델 기반 추천 시스템 최적화를 위한 빔 서치 인식 방법
BEAR: Towards Beam-Search-Aware Optimization for Recommendation with Large Language Models
최근 몇 년 동안, 대규모 언어 모델(LLM)을 활용한 추천 시스템 연구가 급격하게 증가했습니다. 이러한 방법들은 일반적으로 지도 학습 기반 미세 조정(SFT)을 통해 LLM을 추천 시나리오에 적응시키고, 추론 과정에서 빔 서치를 사용하여 $B$개의 최상위 추천 항목을 효율적으로 검색합니다. 그러나, 우리는 중요한 훈련-추론 불일치를 발견했습니다. SFT는 전체적으로 긍정 항목의 확률을 최적화하지만, 긍정 항목이 높은 전체 확률을 가지고 있더라도 빔 서치가 이러한 항목을 검색하도록 보장하지 않습니다. 탐욕적인 가지치기 메커니즘으로 인해, 빔 서치는 긍정 항목의 접두사 확률이 충분하지 않으면 조기에 해당 항목을 제거할 수 있습니다. 이러한 불일치를 해결하기 위해, 우리는 빔 서치 동작을 훈련 과정에서 명시적으로 고려하는 새로운 미세 조정 목표인 BEAR (Beam-SEarch-Aware Regularization)를 제안합니다. BEAR는 각 훈련 인스턴스에 대해 빔 서치를 직접 시뮬레이션하는 대신, 계산적으로 비효율적인 대신, 각 긍정 항목의 모든 토큰이 각 디코딩 단계에서 상위-$B$개의 후보 토큰 내에 포함되어야 한다는 완화된 필수 조건을 적용합니다. 이러한 목표는 잘못된 가지치기의 위험을 효과적으로 줄이면서 표준 SFT에 비해 무시할 수 있는 수준의 계산 오버헤드를 발생시킵니다. 네 개의 실제 데이터 세트에 대한 광범위한 실험 결과, BEAR는 강력한 기본 모델보다 훨씬 뛰어난 성능을 보였습니다. 논문이 채택되면 코드를 공개할 예정입니다.
Recent years have witnessed a rapid surge in research leveraging Large Language Models (LLMs) for recommendation. These methods typically employ supervised fine-tuning (SFT) to adapt LLMs to recommendation scenarios, and utilize beam search during inference to efficiently retrieve $B$ top-ranked recommended items. However, we identify a critical training-inference inconsistency: while SFT optimizes the overall probability of positive items, it does not guarantee that such items will be retrieved by beam search even if they possess high overall probabilities. Due to the greedy pruning mechanism, beam search can prematurely discard a positive item once its prefix probability is insufficient. To address this inconsistency, we propose BEAR (Beam-SEarch-Aware Regularization), a novel fine-tuning objective that explicitly accounts for beam search behavior during training. Rather than directly simulating beam search for each instance during training, which is computationally prohibitive, BEAR enforces a relaxed necessary condition: each token in a positive item must rank within the top-$B$ candidate tokens at each decoding step. This objective effectively mitigates the risk of incorrect pruning while incurring negligible computational overhead compared to standard SFT. Extensive experiments across four real-world datasets demonstrate that BEAR significantly outperforms strong baselines. Code will be released upon acceptance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.