ReThinker: 유도된 성찰과 신뢰도 제어를 동반한 재고(Rethinking)를 통한 과학적 추론
ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control
전문가 수준의 과학적 추론은 거대 언어 모델에게 여전히 어려운 과제이며, 특히 Humanity's Last Exam (HLE)과 같은 벤치마크에서는 경직된 도구 파이프라인, 불안정한 멀티 에이전트 조정, 비효율적인 테스트 타임 스케일링이 성능을 제한하는 경우가 많습니다. 이에 우리는 단계별 Solver-Critic-Selector 아키텍처를 통해 검색, 도구 사용, 멀티 에이전트 추론을 조율하는 신뢰도 인식 에이전트 프레임워크인 ReThinker를 제안합니다. ReThinker는 고정된 파이프라인을 따르지 않고 모델의 신뢰도에 따라 연산을 동적으로 할당함으로써, 적응형 도구 호출, 유도된 다차원적 성찰, 그리고 견고한 신뢰도 가중 선택을 가능하게 합니다. 또한, 인간의 주석 없이 확장 가능한 훈련을 지원하기 위해 성공적인 추론 궤적을 고품질의 지도 학습 데이터로 변환하는 역방향 데이터 합성 파이프라인과 적응형 궤적 재활용 전략을 제안합니다. HLE, GAIA, XBench에서의 실험 결과, ReThinker는 도구를 탑재한 최신 파운데이션 모델 및 기존의 심층 연구 시스템을 일관되게 능가하며 전문가 수준의 추론 작업에서 최고 성능(SOTA)을 달성했습니다.
Expert-level scientific reasoning remains challenging for large language models, particularly on benchmarks such as Humanity's Last Exam (HLE), where rigid tool pipelines, brittle multi-agent coordination, and inefficient test-time scaling often limit performance. We introduce ReThinker, a confidence-aware agentic framework that orchestrates retrieval, tool use, and multi-agent reasoning through a stage-wise Solver-Critic-Selector architecture. Rather than following a fixed pipeline, ReThinker dynamically allocates computation based on model confidence, enabling adaptive tool invocation, guided multi-dimensional reflection, and robust confidence-weighted selection. To support scalable training without human annotation, we further propose a reverse data synthesis pipeline and an adaptive trajectory recycling strategy that transform successful reasoning traces into high-quality supervision. Experiments on HLE, GAIA, and XBench demonstrate that ReThinker consistently outperforms state-of-the-art foundation models with tools and existing deep research systems, achieving state-of-the-art results on expert-level reasoning tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.