2601.09274v1 Jan 14, 2026 cs.AI

$A^3$-Bench: 앵커 및 어트랙터 활성화를 통한 기억 주도 과학적 추론 벤치마킹

$A^3$-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

Jian Zhang
Jian Zhang
Citations: 14
h-index: 2
Yu He
Yu He
Citations: 5
h-index: 1
Zhiyuan Wang
Zhiyuan Wang
Citations: 4
h-index: 1
Zhangqi Wang
Zhangqi Wang
Citations: 11
h-index: 2
Kai He
Kai He
Citations: 8
h-index: 1
Fangzhi Xu
Fangzhi Xu
Citations: 994
h-index: 12
Qika Lin
Qika Lin
Citations: 1,599
h-index: 23
Jun Liu
Jun Liu
Citations: 22
h-index: 2

과학적 추론은 논리적 추론뿐만 아니라 사전 지식과 경험적 구조의 활성화에도 의존합니다. 기억은 지식을 효율적으로 재사용하고 추론의 일관성과 안정성을 향상시킬 수 있습니다. 그러나 기존 벤치마크들은 주로 최종 정답이나 단계별 일관성만을 평가하여, 앵커와 어트랙터를 활성화한 후 이를 다단계 추론에 통합하는 인간 추론의 기저인 '기억 주도' 메커니즘을 간과하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 앵커 및 어트랙터 활성화에 기반하여 이중 규모의 기억 주도 활성화를 통해 과학적 추론을 평가하도록 설계된 벤치마크인 $A^3$-Bench(https://a3-bench.github.io)를 제안합니다. 첫째, 우리는 SAPM(주제, 앵커 및 어트랙터, 문제, 기억 개발) 프로세스를 사용하여 다양한 도메인에 걸친 2,198개의 과학 추론 데이터셋을 구축했습니다. 둘째, 앵커와 어트랙터를 활용하는 이중 규모 기억 평가 프레임워크와 함께, 기억 활성화율을 측정하기 위한 AAUI(Anchor-Attractor Utilization Index) 지표를 소개합니다. 마지막으로, 다양한 베이스 모델 및 패러다임에 대한 실험을 통해 $A^3$-Bench를 검증하고 기억 활성화가 추론 성능에 미치는 영향을 분석하여, 기억 주도 과학적 추론에 대한 통찰력을 제공합니다.

Original Abstract

Scientific reasoning relies not only on logical inference but also on activating prior knowledge and experiential structures. Memory can efficiently reuse knowledge and enhance reasoning consistency and stability. However, existing benchmarks mainly evaluate final answers or step-by-step coherence, overlooking the \textit{memory-driven} mechanisms that underlie human reasoning, which involves activating anchors and attractors, then integrating them into multi-step inference. To address this gap, we propose $A^3$-Bench~ https://a3-bench.github.io, a benchmark designed to evaluate scientific reasoning through dual-scale memory-driven activation, grounded in Anchor and Attractor Activation. First, we annotate 2,198 science reasoning problems across domains using the SAPM process(subject, anchor & attractor, problem, and memory developing). Second, we introduce a dual-scale memory evaluation framework utilizing anchors and attractors, along with the AAUI(Anchor--Attractor Utilization Index) metric to measure memory activation rates. Finally, through experiments with various base models and paradigms, we validate $A^3$-Bench and analyze how memory activation impacts reasoning performance, providing insights into memory-driven scientific reasoning.

1 Citations
0 Influential
11.5 Altmetric
58.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!