GIANTS: 과학 문헌으로부터의 생성적 통찰력 예측
GIANTS: Generative Insight Anticipation from Scientific Literature
과학적 혁신은 종종 기존 아이디어를 융합하여 새로운 기여를 창출하는 과정에서 발생합니다. 언어 모델(LM)은 과학적 발견에 유망한 가능성을 보여주지만, 특정 분야의 문헌을 기반으로 한 이러한 융합 능력이 충분히 연구되지 않았습니다. 본 연구에서는 '통찰력 예측(insight anticipation)'이라는 생성 작업을 소개하며, 이는 모델이 다운스트림 논문의 핵심 통찰력을 그 기반이 되는 기존 논문들을 통해 예측하는 작업입니다. 이 능력을 평가하기 위해, 8개의 과학 분야에 걸쳐 17,000개의 예시로 구성된 벤치마크인 GiantsBench를 개발했습니다. 각 예시는 일련의 기존 논문과 해당 다운스트림 논문의 핵심 통찰력으로 구성됩니다. 모델을 평가하기 위해, 생성된 통찰력과 실제 통찰력 간의 유사성을 점수화하는 LM 평가 모델을 사용했으며, 이러한 유사성 점수가 전문가의 인간 평가와 상관 관계가 있음을 확인했습니다. 또한, 강화 학습(RL)을 통해 유사성 점수를 활용하여 통찰력 예측을 최적화하도록 훈련된 LM인 GIANTS-4B를 소개합니다. GIANTS-4B는 공개된 작은 규모의 아키텍처를 가지고 있지만, 독점 모델을 능가하는 성능을 보이며, 새로운 분야에도 일반화됩니다. GIANTS-4B는 gemini-3-pro에 비해 유사성 점수에서 34%의 상대적인 성능 향상을 달성했습니다. 인간 평가 결과, GIANTS-4B가 생성하는 통찰력이 기본 모델보다 개념적으로 더 명확하다는 것을 확인했습니다. 또한, 연구 초록의 예상되는 인용 영향력을 비교하는 데 훈련된 타사 모델인 SciJudge-30B는 GIANTS-4B가 생성하는 통찰력이 더 높은 인용을 받을 가능성이 높다고 예측하며, 짝지어진 비교에서 68%의 경우 기본 모델보다 GIANTS-4B의 통찰력을 선호했습니다. 본 연구에서는 개발된 코드, 벤치마크, 모델을 공개하여 자동화된 과학적 발견 분야의 후속 연구를 지원하고자 합니다.
Scientific breakthroughs often emerge from synthesizing prior ideas into novel contributions. While language models (LMs) show promise in scientific discovery, their ability to perform this targeted, literature-grounded synthesis remains underexplored. We introduce insight anticipation, a generation task in which a model predicts a downstream paper's core insight from its foundational parent papers. To evaluate this capability, we develop GiantsBench, a benchmark of 17k examples across eight scientific domains, where each example consists of a set of parent papers paired with the core insight of a downstream paper. We evaluate models using an LM judge that scores similarity between generated and ground-truth insights, and show that these similarity scores correlate with expert human ratings. Finally, we present GIANTS-4B, an LM trained via reinforcement learning (RL) to optimize insight anticipation using these similarity scores as a proxy reward. Despite its smaller open-source architecture, GIANTS-4B outperforms proprietary baselines and generalizes to unseen domains, achieving a 34% relative improvement in similarity score over gemini-3-pro. Human evaluations further show that GIANTS-4B produces insights that are more conceptually clear than those of the base model. In addition, SciJudge-30B, a third-party model trained to compare research abstracts by likely citation impact, predicts that insights generated by GIANTS-4B are more likely to lead to higher citations, preferring them over the base model in 68% of pairwise comparisons. We release our code, benchmark, and model to support future research in automated scientific discovery.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.