학술 개념 색인을 활용한 과학 논문 검색 성능 향상
Improving Scientific Document Retrieval with Academic Concept Index
일반 도메인 검색 시스템을 과학 분야에 적용하는 것은 대규모의 특정 분야 관련 데이터 부족과 어휘 및 정보 요구 사항의 상당한 차이로 인해 어려운 과제입니다. 최근 연구들은 이러한 문제를 해결하기 위해 대규모 언어 모델(LLM)을 활용하는 두 가지 독립적인 접근 방식을 사용합니다. (1) 미세 조정(fine-tuning)을 위한 합성 질의 생성, (2) 관련성 매칭을 지원하기 위한 보조 문맥 생성입니다. 그러나 이 두 가지 접근 방식 모두 과학 논문에 내재된 다양한 학술 개념을 간과하여, 종종 중복되거나 개념적으로 좁은 질의 및 문맥을 생성합니다. 이러한 한계를 극복하기 위해, 우리는 학술 개념 색인을 도입합니다. 이 색인은 논문에서 핵심 개념을 추출하고 학술 분류 체계를 기반으로 이를 구성합니다. 이 체계화된 색인은 두 가지 접근 방식 모두를 개선하기 위한 기반 역할을 합니다. 첫째, 우리는 개념 보장(concept coverage) 기반 생성(CCQGen)을 통해 합성 질의 생성을 강화합니다. CCQGen은 아직 다루지 않은 개념에 대해 LLM을 적응적으로 조건화하여, 더 넓은 개념 범위를 가진 보완적인 질의를 생성합니다. 둘째, 우리는 개념 중심의 보조 문맥(CCExpand)을 통해 문맥 증강을 강화합니다. CCExpand은 개념 인식을 기반으로 생성된 질의에 대한 간결한 답변 역할을 하는 문서 조각 집합을 활용합니다. 광범위한 실험 결과, 학술 개념 색인을 질의 생성 및 문맥 증강에 통합하면 더 높은 품질의 질의를 얻고, 더 나은 개념적 정렬을 달성하며, 검색 성능을 향상시킬 수 있음을 보여줍니다.
Adapting general-domain retrievers to scientific domains is challenging due to the scarcity of large-scale domain-specific relevance annotations and the substantial mismatch in vocabulary and information needs. Recent approaches address these issues through two independent directions that leverage large language models (LLMs): (1) generating synthetic queries for fine-tuning, and (2) generating auxiliary contexts to support relevance matching. However, both directions overlook the diverse academic concepts embedded within scientific documents, often producing redundant or conceptually narrow queries and contexts. To address this limitation, we introduce an academic concept index, which extracts key concepts from papers and organizes them guided by an academic taxonomy. This structured index serves as a foundation for improving both directions. First, we enhance the synthetic query generation with concept coverage-based generation (CCQGen), which adaptively conditions LLMs on uncovered concepts to generate complementary queries with broader concept coverage. Second, we strengthen the context augmentation with concept-focused auxiliary contexts (CCExpand), which leverages a set of document snippets that serve as concise responses to the concept-aware CCQGen queries. Extensive experiments show that incorporating the academic concept index into both query generation and context augmentation leads to higher-quality queries, better conceptual alignment, and improved retrieval performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.