정보 검색 기반 추론 샌드박스: 검색 능력과 추론 능력을 분리하기 위한 벤치마크
Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities
기존 벤치마크에서 뛰어난 성능을 보이는 대규모 언어 모델이라 할지라도, 진정으로 새로운 과학 정보를 이해하고 추론할 수 있는지 여부는 여전히 불분명합니다. 대부분의 평가는 검색 증강 생성(RAG) 파이프라인의 전체적인 성능을 평가하며, 이때 추론 능력은 검색 방식 및 도구 선택에 의해 영향을 받습니다. 또한, 모델의 매개변수 기반 암기 및 웹 데이터의 변동성으로 인해 평가 결과가 왜곡될 수 있습니다. 본 연구에서는 문서 기반 추론을 분리하고 심층 검색의 핵심적인 어려움(다단계 합성, 노이즈 제거, 증거 기반 결론 도출)을 유지하는 제어된 심층 연구 샌드박스인 DeR2를 소개합니다. DeR2는 증거 접근과 추론을 네 가지 체제(Instruction-only, Concepts, Related-only, Full-set)로 분리하여, 검색 실패와 추론 실패 간의 해석 가능한 격차를 만들어냅니다. 이를 통해 세부적인 오류 원인을 파악할 수 있습니다. 매개변수 유출을 방지하기 위해, 증거 없이 매개변수가 실패하는 경우를 검증하고, 동시에 전문가가 제공한 개념을 사용하여 풀이 가능한 문제를 해결하는 두 단계의 검증 절차를 적용합니다. 재현성을 확보하기 위해, 각 데이터셋은 2023년에서 2025년 사이에 발표된 이론 논문에서 추출한 고정된 문서 라이브러리를 제공하며, 이 문서에는 전문가가 주석을 달아 놓은 개념과 검증된 논리가 포함되어 있습니다. 최첨단 모델들을 대상으로 수행한 실험 결과, 모델 간에 상당한 차이가 있으며, 개선의 여지가 많음을 알 수 있었습니다. 일부 모델은 Full-set 데이터셋에서 Instruction-only 데이터셋보다 성능이 저하되는 '모드 전환' 취약성을 보였으며, 다른 모델은 개념을 정확히 언급하지만, 이를 절차적으로 활용하는 데 실패하는 '구조적 개념 오용' 현상을 나타냈습니다.
Despite strong performance on existing benchmarks, it remains unclear whether large language models can reason over genuinely novel scientific information. Most evaluations score end-to-end RAG pipelines, where reasoning is confounded with retrieval and toolchain choices, and the signal is further contaminated by parametric memorization and open-web volatility. We introduce DeR2, a controlled deep-research sandbox that isolates document-grounded reasoning while preserving core difficulties of deep search: multi-step synthesis, denoising, and evidence-based conclusion making. DeR2 decouples evidence access from reasoning via four regimes--Instruction-only, Concepts (gold concepts without documents), Related-only (only relevant documents), and Full-set (relevant documents plus topically related distractors)--yielding interpretable regime gaps that operationalize retrieval loss vs. reasoning loss and enable fine-grained error attribution. To prevent parametric leakage, we apply a two-phase validation that requires parametric failure without evidence while ensuring oracle-concept solvability. To ensure reproducibility, each instance provides a frozen document library (drawn from 2023-2025 theoretical papers) with expert-annotated concepts and validated rationales. Experiments across a diverse set of state-of-the-art foundation models reveal substantial variation and significant headroom: some models exhibit mode-switch fragility, performing worse with the Full-set than with Instruction-only, while others show structural concept misuse, correctly naming concepts but failing to execute them as procedures.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.