수학적 추론에서의 전략 실행 가능성: 효과적인 지침을 위한 인간-모델 간 차이 활용
Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance
예제 기반 지침은 추론 단계에서 수학적 추론 능력을 향상시키는 데 널리 사용되지만, 지침이 정확하고 문제와 관련성이 있더라도 문제와 모델에 따라 효과가 매우 불안정합니다. 본 연구에서는 이러한 불안정성이 이전에 충분히 연구되지 않았던 전략 사용 여부(성공적인 해결책에 전략이 나타나는지 여부)와 전략 실행 가능성(대상 모델에 지침으로 적용될 때 전략이 얼마나 효과적인지) 간의 간극에서 비롯된다는 것을 보여줍니다. 인간이 작성한 해결책과 모델이 생성한 해결책을 비교 분석한 결과, 사용 여부와 실행 가능성 사이에 체계적인 차이가 존재하며, 이는 인간과 모델에서 파생된 전략이 구조적이고, 도메인에 따라 다른 방식으로 다르기 때문에 상호 보완적인 강점을 가지며, 지침을 제공할 때 출처에 따라 일관된 반전 현상을 나타냅니다. 이러한 분석을 바탕으로, 본 연구에서는 실제적인 다중 경로 및 출처 정보를 활용하여 실행 가능성을 명시적으로 모델링하는 Selective Strategy Retrieval (SSR)이라는 테스트 시간 프레임워크를 제안합니다. 다양한 수학적 추론 벤치마크에서 SSR은 직접 해결, 컨텍스트 학습, 단일 출처 지침보다 안정적이고 일관된 성능 향상을 보여주며, 특히 AIME25에서 최대 +13점, Apex에서 최대 +5점의 정확도 향상을 달성했습니다. 코드 및 벤치마크는 다음 주소에서 공개적으로 이용할 수 있습니다: https://github.com/lwd17/strategy-execute-pipeline.
Example-based guidance is widely used to improve mathematical reasoning at inference time, yet its effectiveness is highly unstable across problems and models-even when the guidance is correct and problem-relevant. We show that this instability arises from a previously underexplored gap between strategy usage-whether a reasoning strategy appears in successful solutions-and strategy executability-whether the strategy remains effective when instantiated as guidance for a target model. Through a controlled analysis of paired human-written and model-generated solutions, we identify a systematic dissociation between usage and executability: human- and model-derived strategies differ in structured, domain-dependent ways, leading to complementary strengths and consistent source-dependent reversals under guidance. Building on this diagnosis, we propose Selective Strategy Retrieval (SSR), a test-time framework that explicitly models executability by selectively retrieving and combining strategies using empirical, multi-route, source-aware signals. Across multiple mathematical reasoning benchmarks, SSR yields reliable and consistent improvements over direct solving, in-context learning, and single-source guidance, improving accuracy by up to $+13$ points on AIME25 and $+5$ points on Apex for compact reasoning models. Code and benchmark are publicly available at: https://github.com/lwd17/strategy-execute-pipeline.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.