2601.05567v1 Jan 09, 2026 cs.AI

WildSci: 실제 학술 문헌을 활용한 과학적 추론 능력 향상

WildSci: Advancing Scientific Reasoning from In-the-Wild Literature

Deepak Nathani
Deepak Nathani
University of California, Santa Barbara
Citations: 1,193
h-index: 8
Zekun Li
Zekun Li
Citations: 180
h-index: 4
William Yang Wang
William Yang Wang
Citations: 3
h-index: 1
Tengxiao Liu
Tengxiao Liu
UC Santa Barbara
Citations: 394
h-index: 8
Kevin Yang
Kevin Yang
Citations: 72
h-index: 4

최근 대규모 언어 모델(LLM) 추론의 발전은 풍부한 고품질 데이터와 객관적인 평가 지표를 쉽게 확보할 수 있는 수학 및 코딩과 같은 영역에 집중되어 왔습니다. 반면, 의학이나 재료 과학과 같은 과학 영역에서는 데이터셋 범위의 한계와 개방형 과학 질문이 가진 내재적 복잡성으로 인해 LLM 추론 모델의 발전이 제한적이었습니다. 이러한 문제를 해결하기 위해, 우리는 9개 과학 분야와 26개 세부 영역을 아우르는 동료 심사를 거친 문헌에서 자동으로 합성된 도메인 특화 과학 질문 데이터셋인 WildSci를 소개합니다. 복잡한 과학적 추론 과제를 객관식 형식으로 구성함으로써, 우리는 명확한 보상 신호를 통해 확장 가능한 훈련이 가능하도록 했습니다. 나아가 우리는 강화 학습을 적용하여 이 데이터를 바탕으로 모델을 미세 조정(finetune)하고, 도메인별 성능 변화, 응답 행동, 일반화 경향 등 훈련 과정의 역학을 분석했습니다. 다양한 과학 벤치마크에 대한 실험을 통해 본 연구의 데이터셋과 접근 방식의 유효성을 입증했습니다. 우리는 과학적 추론 분야의 확장 가능하고 지속 가능한 연구를 지원하기 위해 WildSci를 공개하며, 이는 https://huggingface.co/datasets/JustinTX/WildSci 에서 확인할 수 있습니다.

Original Abstract

Recent progress in large language model (LLM) reasoning has focused on domains like mathematics and coding, where abundant high-quality data and objective evaluation metrics are readily available. In contrast, progress in LLM reasoning models remains limited in scientific domains such as medicine and materials science due to limited dataset coverage and the inherent complexity of open-ended scientific questions. To address these challenges, we introduce WildSci, a new dataset of domain-specific science questions automatically synthesized from peer-reviewed literature, covering 9 scientific disciplines and 26 subdomains. By framing complex scientific reasoning tasks in a multiple-choice format, we enable scalable training with well-defined reward signals. We further apply reinforcement learning to finetune models on these data and analyze the resulting training dynamics, including domain-specific performance changes, response behaviors, and generalization trends. Experiments on a suite of scientific benchmarks demonstrate the effectiveness of our dataset and approach. We release WildSci to enable scalable and sustainable research in scientific reasoning, available at https://huggingface.co/datasets/JustinTX/WildSci.

1 Citations
0 Influential
24 Altmetric
121.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!