HeadRank: 선호도 기반 어텐션 헤드를 활용한 디코딩 불필요 패사지 재순위화
HeadRank: Decoding-Free Passage Reranking via Preference-Aligned Attention Heads
LLM 어텐션 가중치로부터 관련성을 직접 추출하여 재순위화하는 방식은 오토레그레시브 방식보다 지연 시간 측면에서 큰 장점을 제공하지만, 어텐션 점수 균일화라는 문제를 겪습니다. 즉, 문맥 중간 영역의 문서들이 유사한 점수를 받아, 순위를 매기기 위해 필요한 미세한 차이를 잃어버리는 것입니다. 본 연구에서는 엔트로피 정규화 기반 헤드 선택, 하드 어자센트 레벨 선호도 쌍, 그리고 균일화된 중간 영역에서의 차별성을 향상시키는 분포 정규화기를 결합하여, 선호도 최적화를 이산적인 토큰 공간에서 연속적인 어텐션 영역으로 확장하는 프레임워크인 HeadRank를 제안합니다. 또한, 가장 깊은 선택된 레이어에서 깊이 자르기를 통해 추론 과정을 $\mathcal{O}(1)$의 순방향 패스로 줄입니다. Qwen3의 0.6B, 4B 모델을 사용하여 211개의 학습 쿼리에 대한 14개의 벤치마크에서, HeadRank는 생성 모델 및 디코딩 불필요 모델을 능가하는 성능을 보이며, 100%의 서식 성공률을 달성했습니다. 4B 모델에서, 관련성이 높은 중간 영역 문서의 57.4%가 상위 쿼터 안에 포함되는 반면, 관련성이 없는 문서의 14.2%만이 상위 쿼터 안에 포함되어, 43%p의 선택성 차이를 보여줍니다. 이는 어텐션 공간에서의 선호도 정렬이 목록 기반 재순위화에 효과적임을 입증합니다.
Decoding-free reranking methods that read relevance signals directly from LLM attention weights offer significant latency advantages over autoregressive approaches, yet suffer from attention score homogenization: middle-context documents receive near-identical scores, destroying the fine-grained distinctions required for ranking. We propose HeadRank, a framework that lifts preference optimization from discrete token space into the continuous attention domain through entropy-regularized head selection, hard adjacent-level preference pairs, and a distribution regularizer that jointly sharpen discriminability in the homogenized middle zone. Depth truncation at the deepest selected layer further reduces inference to $\mathcal{O}(1)$ forward passes. Across 14 benchmarks on three Qwen3 scales (0.6B--4B) using only 211 training queries, HeadRank consistently outperforms generative and decoding-free baselines with 100\% formatting success. At 4B, 57.4\% of relevant middle-zone documents reach the top quartile versus 14.2\% for irrelevant ones -- a 43-percentage-point selectivity gap that demonstrates the effectiveness of attention-space preference alignment for listwise reranking.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.