DeepEra: 과학적 검색 기반 생성 질문 응답을 위한 심층 증거 재순위화 에이전트
DeepEra: A Deep Evidence Reranking Agent for Scientific Retrieval-Augmented Generated Question Answering
과학 문헌의 급속한 증가와 함께, 과학적 질문 응답(SciQA)은 과학적 지식을 탐색하고 활용하는 데 점점 더 중요해지고 있습니다. 검색 증강 생성(RAG)은 외부 소스의 지식을 LLM에 통합하여 신뢰할 수 있는 증거를 제공함으로써 과학적 질문 응답을 향상시킵니다. 그러나 기존의 검색 및 재순위화 방법은 의미적으로 유사하지만 논리적으로 관련 없는 문장에 취약하며, 이는 사실 정확성을 저하시키고 환각 현상을 증폭시키는 경향이 있습니다. 이러한 문제를 해결하기 위해, 우리는 단계별 추론을 통합하여 표면적인 의미를 넘어 후보 문장을 보다 정확하게 평가할 수 있는 심층 증거 재순위화 에이전트(DeepEra)를 제안합니다. 체계적인 평가를 지원하기 위해, 우리는 10개의 주제에 걸쳐 약 30만 개의 SciQA 인스턴스를 포함하는 대규모 데이터셋인 SciRAG-SSLI(Scientific RAG - Semantically Similar but Logically Irrelevant)를 구축했습니다. 이 데이터셋은 자연적으로 검색된 문맥과 체계적으로 생성된 주의 분산 문장을 결합하여 논리적 견고성 및 사실 기반을 테스트합니다. 포괄적인 평가는 우리 접근 방식이 선도적인 재순위화 모델보다 우수한 검색 성능을 달성한다는 것을 확인했습니다. 우리가 알고 있는 한, 이 연구는 2단계 RAG 프레임워크에서 간과될 수 없는 의미적으로 유사하지만 논리적으로 관련 없는(SSLI) 문제에 대한 최초의 종합적인 연구이자 경험적 검증입니다.
With the rapid growth of scientific literature, scientific question answering (SciQA) has become increasingly critical for exploring and utilizing scientific knowledge. Retrieval-Augmented Generation (RAG) enhances LLMs by incorporating knowledge from external sources, thereby providing credible evidence for scientific question answering. But existing retrieval and reranking methods remain vulnerable to passages that are semantically similar but logically irrelevant, often reducing factual reliability and amplifying hallucinations.To address this challenge, we propose a Deep Evidence Reranking Agent (DeepEra) that integrates step-by-step reasoning, enabling more precise evaluation of candidate passages beyond surface-level semantics. To support systematic evaluation, we construct SciRAG-SSLI (Scientific RAG - Semantically Similar but Logically Irrelevant), a large-scale dataset comprising about 300K SciQA instances across 10 subjects, constructed from 10M scientific corpus. The dataset combines naturally retrieved contexts with systematically generated distractors to test logical robustness and factual grounding. Comprehensive evaluations confirm that our approach achieves superior retrieval performance compared to leading rerankers. To our knowledge, this work is the first to comprehensively study and empirically validate innegligible SSLI issues in two-stage RAG frameworks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.