2604.23396v1 Apr 25, 2026 cs.IR

생성적 검색에서의 Look-Ahead Prior 활용에 대한 분석: 재현 및 스트레스 테스트

Lost in Decoding? Reproducing and Stress-Testing the Look-Ahead Prior in Generative Retrieval

M. D. Rijke
M. D. Rijke
Citations: 1,639
h-index: 20
Yongkang Li
Yongkang Li
Citations: 141
h-index: 6
Kidist Amde Mekonnen
Kidist Amde Mekonnen
Citations: 15
h-index: 3
Yubao Tang
Yubao Tang
Citations: 73
h-index: 4
Simon Lupart
Simon Lupart
Citations: 154
h-index: 8

생성적 검색(Generative Retrieval, GR)은 문서 식별자를 자기 회귀적으로 생성하여 문서를 순위화합니다. 많은 GR 방법들이 트라이(trie) 제약 하에 동작하는 빔 검색(beam search)에 의존하기 때문에, 유한한 빔 크기 하에서 관련 있는 접두사들이 조기에 제거될 위험이 있습니다. Planning Ahead in Generative Retrieval (PAG)는 동시 디코딩을 사용하여 문서 수준의 look-ahead prior를 계산함으로써 이러한 문제를 완화하며, 이후의 순차적 디코딩을 안내합니다. 본 연구에서는 PAG를 추론 시점에 재현하고, 디코딩 동작에 대한 스트레스 테스트를 수행했습니다. 저자들이 공개한 체크포인트 및 식별자/트라이 정보를 사용하고, 보고된 디코딩 환경을 그대로 사용하여 MS MARCO Dev 및 TREC-DL 2019/2020 데이터셋에서 PAG의 주요 성능 결과를 재현했으며, 보고된 빔 크기-지연 시간 간의 상관관계를 실제 하드웨어 환경에서 확인했습니다. 재현 연구 외에도, 계획 오류 진단 도구를 도입하여, 의도 보존적인 쿼리 변형이 플래너의 상위 n개 후보 집합과 가장 높은 가중치를 가진 플래너 토큰에 미치는 영향을 정량적으로 분석하고, 이러한 변화가 가이드 디코딩에 미치는 영향을 평가했습니다. 연구 결과, PAG의 플래닝 신호는 어휘적 표면 형태의 변화에 취약하며, 의도를 보존하는 오타가 플랜 붕괴를 유발할 수 있다는 것을 확인했습니다. 플랜 붕괴는 계획된 후보 풀이 크게 변화하여 look-ahead 보너스가 유용한 지침을 제공하지 못하고, 결과적으로 디코딩이 약한 비가이드 검색으로 회귀하는 현상을 의미합니다. 또한, 영어가 아닌 mMARCO 쿼리를 사용하여 영어 인덱스에 대한 고정 인덱스 교차 언어(cross-lingual) 로버스트성 평가를 수행했으며, 재인덱싱이 필요 없는 쿼리 측면의 완화 전략을 평가했습니다. 그 결과, 쿼리 번역이 가장 효과적인 복구 방법임을 확인했습니다. 전반적으로, 본 연구 결과는 PAG가 공개된 추론 환경에서 보고된 효과와 플래닝 기반 디코딩의 이점을 확인시켜 주지만, 이러한 이점은 실제 쿼리 변형 및 쿼리-문서 불일치 상황에서 플래닝 신호의 안정성에 크게 의존한다는 것을 보여줍니다.

Original Abstract

Generative retrieval (GR) ranks documents by autoregressively generating document identifiers. Because many GR methods rely on trie-constrained beam search, they are vulnerable to early pruning of relevant prefixes under finite-beam decoding. Planning Ahead in Generative Retrieval (PAG) mitigates this failure mode by using simultaneous decoding to compute a document-level look-ahead prior that guides subsequent sequential decoding. We reproduce PAG at inference time and stress-test its decoding behavior. Using the authors' released checkpoint and identifier/trie artifacts under the reported decoding setup, we reproduce the main effectiveness results on MS MARCO Dev and TREC-DL 2019/2020, and corroborate the reported beam-size-latency trade-off in our hardware setting. Beyond reproduction, we introduce plan drift diagnostics that quantify how intent-preserving query variations alter the planner's top-n candidate set and highest-weight planner tokens, and how these changes affect guided decoding. We find that PAG's planning signal is brittle under lexical surface-form variation: intent-preserving typos can trigger plan collapse, where the planned candidate pool shifts enough that the look-ahead bonus provides little useful guidance, effectively reverting decoding toward weaker unguided search. We further evaluate fixed-index cross-lingual robustness using non-English mMARCO queries against an English index, and assess query-side mitigation strategies that require no re-indexing; query translation provides the strongest recovery in our setting. Overall, our results confirm PAG's reported effectiveness and the benefit of planning-guided decoding under the released inference setup, while showing that these gains depend on the stability of the planning signal under realistic query variation and query-document mismatch.

0 Citations
0 Influential
10 Altmetric
50.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!