2603.20990v1 Mar 22, 2026 cs.IR

ECI: 효과적인 대비 정보(Effective Contrastive Information)를 활용한 하드 네거티브 평가

ECI: Effective Contrastive Information to Evaluate Hard-Negatives

Aarush Sinha
Aarush Sinha
Citations: 12
h-index: 3
Rahul Seetharaman
Rahul Seetharaman
Citations: 2
h-index: 1
Aman Bansal
Aman Bansal
Citations: 11
h-index: 2

하드 네거티브는 긍정 문서와 의미적으로 유사하지만 관련성이 없는 데이터로서, 밀집 검색 모델의 학습 및 미세 조정에 중요한 역할을 합니다. 정확한 검색 성능 향상을 위해서는 이러한 하드 네거티브를 정확하게 구별하는 것이 필수적입니다. 그러나 효과적인 하드 네거티브를 식별하는 데는 일반적으로 다양한 네거티브 샘플링 전략과 하이퍼파라미터를 사용한 반복적인 미세 조정 실험이 필요하며, 이는 상당한 계산 비용을 초래합니다. 본 논문에서는 정보 이론 및 정보 검색 원리에 기반한 이론적 근거를 가진 지표인 ECI (Effective Contrastive Information)를 소개합니다. ECI는 모델 미세 조정 전에 하드 네거티브의 품질을 평가할 수 있도록 설계되었습니다. ECI는 집합 크기에 의해 결정되는 상호 정보의 상한인 정보 용량(Information Capacity)과 신호 크기(Hardness)와 안전성(Max-Margin)의 조화로운 균형인 판별 효율성(Discriminative Efficiency) 간의 균형을 최적화하여 네거티브 데이터를 평가합니다. ECI는 생성적 방법에서 흔히 발생하는 위험하고 잘못된 긍정 네거티브에 대해 엄격하게 페널티를 부여하며, 휴리스틱 접근 방식과는 달리 엄격한 기준을 적용합니다. BM25, 크로스 인코더, 그리고 대규모 언어 모델을 사용하여 채굴하거나 생성된 다양한 하드 네거티브 데이터셋에 대해 ECI를 평가했습니다. 실험 결과, ECI는 다운스트림 검색 성능을 정확하게 예측하며, BM25와 크로스 인코더를 결합한 전략이 볼륨과 신뢰성의 최적의 균형을 제공한다는 것을 보여주었습니다. 이는 비용이 많이 드는 엔드 투 엔드 실험의 필요성을 크게 줄여줍니다.

Original Abstract

Hard negatives play a critical role in training and fine-tuning dense retrieval models, as they are semantically similar to positive documents yet non-relevant, and correctly distinguishing them is essential for improving retrieval accuracy. However, identifying effective hard negatives typically requires extensive ablation studies involving repeated fine-tuning with different negative sampling strategies and hyperparameters, resulting in substantial computational cost. In this paper, we introduce ECI: Effective Contrastive Information , a theoretically grounded metric grounded in Information Theory and Information Retrieval principles that enables practitioners to assess the quality of hard negatives prior to model fine-tuning. ECI evaluates negatives by optimizing the trade-off between Information Capacity the logarithmic bound on mutual information determined by set size and Discriminative Efficiency, a harmonic balance of Signal Magnitude (Hardness) and Safety (Max-Margin). Unlike heuristic approaches, ECI strictly penalizes unsafe, false-positive negatives prevalent in generative methods. We evaluate ECI across hard-negative sets mined or generated using BM25, cross-encoders, and large language models. Our results demonstrate that ECI accurately predicts downstream retrieval performance, identifying that hybrid strategies (BM25+Cross-Encoder) offer the optimal balance of volume and reliability, significantly reducing the need for costly end-to-end ablation studies.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!