Hit-RAG: 선호도 정렬을 통한 장문 맥락 추론 학습
Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment
검색 증강 생성(Retrieval-Augmented Generation, RAG)이 외부 지식을 활용하여 멀티모달 대규모 언어 모델을 강화하는 데 잠재력을 가지고 있지만, 방대한 맥락으로 전환하는 과정에서 종종 주의 집중 저하 및 추론 환각 현상이 발생합니다. 정보 밀도의 증가는 중요한 증거를 많은 잡음으로 덮어씌워, 밀집된 입력 내에서 관련 정보를 식별하는 것을 어렵게 만듭니다. 본 논문에서는 이러한 인지적 병목 현상을 해결하기 위한 다단계 선호도 정렬 프레임워크인 **Hit-RAG**을 제안합니다. 우리의 접근 방식은 세 가지 단계를 통해 외부 증거 활용을 체계적으로 개선합니다. 첫째, 지도 미세 조정(Supervised Fine-tuning)을 통해 기본 맥락 인지 능력을 확립하여 정보 누락을 최소화합니다. 둘째, 차별적 선호도 정렬(Discriminative Preference Alignment)은 오해를 불러일으키는 주의 분산 요인에 대한 견고성을 향상시킵니다. 마지막으로, 그룹 상대 정책 최적화(Group-Relative Policy Optimization)는 논리적 추론의 안정성을 확보하여 추론 오류를 방지합니다. 여덟 가지 벤치마크에 대한 광범위한 실험 결과는 Hit-RAG이 일관되게 상당한 성능 향상을 가져오며, 모델이 맥락 획득과 정확한 추론 사이의 격차를 줄이고, 장문 맥락 시나리오에서 훨씬 더 큰 모델보다 우수한 성능을 발휘함을 보여줍니다.
Despite the promise of Retrieval-Augmented Generation in grounding Multimodal Large Language Models with external knowledge, the transition to extensive contexts often leads to significant attention dilution and reasoning hallucinations. The surge in information density causes critical evidence to be submerged by voluminous noise, which complicates the discernment of relevant fragments within a dense input. In this paper, we propose \textbf{Hit-RAG}, a multi-stage preference alignment framework designed to resolve these cognitive bottlenecks through a progressive optimization pipeline. Our approach systematically refines the utilization of external evidence via three distinct stages. First, Supervised Fine-tuning establishes baseline context awareness to minimize information neglect. Next, Discriminative Preference Alignment enhances robustness against misleading distractors. Finally, Group-Relative Policy Optimization stabilizes logical synthesis to prevent reasoning collapse. Extensive evaluations on eight benchmarks demonstrate that Hit-RAG consistently yields substantial performance gains, enabling models to bridge the gap between context acquisition and accurate reasoning while surpassing much larger counterparts in long-context scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.