2601.21937v2 Jan 29, 2026 cs.AI

정보 검색 기반 추론 샌드박스: 검색 능력과 추론 능력을 분리하기 위한 벤치마크

Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

Yixin Cao
Yixin Cao
Citations: 41
h-index: 3
Zhongyuan Peng
Zhongyuan Peng
Citations: 7
h-index: 1
Shuangshuang Ying
Shuangshuang Ying
Citations: 2
h-index: 1
Jin Chen
Jin Chen
Citations: 2
h-index: 1
Siyi Liu
Siyi Liu
Citations: 0
h-index: 0
Yinzhu Piao
Yinzhu Piao
Citations: 0
h-index: 0
Yuchen Wu
Yuchen Wu
Citations: 4
h-index: 1
Xin Gui
Xin Gui
Citations: 21
h-index: 1
Xeron Du
Xeron Du
Citations: 3
h-index: 1
Ge Zhang
Ge Zhang
Citations: 21
h-index: 2
Stephen Huang
Stephen Huang
Citations: 0
h-index: 0
Zheyu Wang
Zheyu Wang
Citations: 19
h-index: 2
Yun Peng
Yun Peng
Citations: 53
h-index: 3
Yuhao Wu
Yuhao Wu
Citations: 124
h-index: 6
Hongbin Lin
Hongbin Lin
Citations: 7
h-index: 2
Di He
Di He
Citations: 421
h-index: 8
Xin Li
Xin Li
Citations: 97
h-index: 5
Libo Qin
Libo Qin
Citations: 49
h-index: 3
Gengchen Yu
Gengchen Yu
Citations: 143
h-index: 6

기존 벤치마크에서 뛰어난 성능을 보이는 대규모 언어 모델이라 할지라도, 진정으로 새로운 과학 정보를 이해하고 추론할 수 있는지 여부는 여전히 불분명합니다. 대부분의 평가는 검색 증강 생성(RAG) 파이프라인의 전체적인 성능을 평가하며, 이때 추론 능력은 검색 방식 및 도구 선택에 의해 영향을 받습니다. 또한, 모델의 매개변수 기반 암기 및 웹 데이터의 변동성으로 인해 평가 결과가 왜곡될 수 있습니다. 본 연구에서는 문서 기반 추론을 분리하고 심층 검색의 핵심적인 어려움(다단계 합성, 노이즈 제거, 증거 기반 결론 도출)을 유지하는 제어된 심층 연구 샌드박스인 DeR2를 소개합니다. DeR2는 증거 접근과 추론을 네 가지 체제(Instruction-only, Concepts, Related-only, Full-set)로 분리하여, 검색 실패와 추론 실패 간의 해석 가능한 격차를 만들어냅니다. 이를 통해 세부적인 오류 원인을 파악할 수 있습니다. 매개변수 유출을 방지하기 위해, 증거 없이 매개변수가 실패하는 경우를 검증하고, 동시에 전문가가 제공한 개념을 사용하여 풀이 가능한 문제를 해결하는 두 단계의 검증 절차를 적용합니다. 재현성을 확보하기 위해, 각 데이터셋은 2023년에서 2025년 사이에 발표된 이론 논문에서 추출한 고정된 문서 라이브러리를 제공하며, 이 문서에는 전문가가 주석을 달아 놓은 개념과 검증된 논리가 포함되어 있습니다. 최첨단 모델들을 대상으로 수행한 실험 결과, 모델 간에 상당한 차이가 있으며, 개선의 여지가 많음을 알 수 있었습니다. 일부 모델은 Full-set 데이터셋에서 Instruction-only 데이터셋보다 성능이 저하되는 '모드 전환' 취약성을 보였으며, 다른 모델은 개념을 정확히 언급하지만, 이를 절차적으로 활용하는 데 실패하는 '구조적 개념 오용' 현상을 나타냈습니다.

Original Abstract

Despite strong performance on existing benchmarks, it remains unclear whether large language models can reason over genuinely novel scientific information. Most evaluations score end-to-end RAG pipelines, where reasoning is confounded with retrieval and toolchain choices, and the signal is further contaminated by parametric memorization and open-web volatility. We introduce DeR2, a controlled deep-research sandbox that isolates document-grounded reasoning while preserving core difficulties of deep search: multi-step synthesis, denoising, and evidence-based conclusion making. DeR2 decouples evidence access from reasoning via four regimes--Instruction-only, Concepts (gold concepts without documents), Related-only (only relevant documents), and Full-set (relevant documents plus topically related distractors)--yielding interpretable regime gaps that operationalize retrieval loss vs. reasoning loss and enable fine-grained error attribution. To prevent parametric leakage, we apply a two-phase validation that requires parametric failure without evidence while ensuring oracle-concept solvability. To ensure reproducibility, each instance provides a frozen document library (drawn from 2023-2025 theoretical papers) with expert-annotated concepts and validated rationales. Experiments across a diverse set of state-of-the-art foundation models reveal substantial variation and significant headroom: some models exhibit mode-switch fragility, performing worse with the Full-set than with Instruction-only, while others show structural concept misuse, correctly naming concepts but failing to execute them as procedures.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!