언어 모델의 단축 경로 추론 완화: 기울기 기반 학습 접근 방식
Mitigating Shortcut Reasoning in Language Models: A Gradient-Aware Training Approach
대규모 언어 모델은 뛰어난 추론 능력을 보여주지만, 종종 표면 패턴 매칭 및 답변 암기와 같은 단축 경로에 의존하여 진정한 논리적 추론을 수행하지 못하는 경우가 많습니다. 본 연구에서는 단축 경로를 감지하고 완화하는 기울기 기반 프레임워크인 Shortcut-Aware Reasoning Training (SART)을 제안합니다. SART는 ShortcutScore 및 기울기 조작을 통해 단축 경로를 유발하는 샘플을 식별하고 완화합니다. 본 방법은 검증 목표와의 기울기 불일치 및 답변 토큰 집중도를 통해 단축 경로 신호를 식별하고, 이에 따라 학습 과정을 수정합니다. 제어된 추론 벤치마크 실험 결과, SART는 가장 강력한 기준 모델 대비 정확도가 16.5% 향상되고, 견고성이 40.2% 향상되어, 데이터 분포 변화에 따른 일반화 성능이 크게 향상되었습니다. 코드: https://github.com/fuyanjie/short-cut-aware-data-centric-reasoning
Large language models exhibit strong reasoning capabilities, yet often rely on shortcuts such as surface pattern matching and answer memorization rather than genuine logical inference. We propose Shortcut-Aware Reasoning Training (SART), a gradient-aware framework that detects and mitigates shortcut-promoting samples via ShortcutScore and gradient surgery. Our method identifies shortcut signals through gradient misalignment with validation objectives and answer-token concentration, and modifies training dynamics accordingly. Experiments on controlled reasoning benchmarks show that SART achieves +16.5% accuracy and +40.2% robustness over the strongest baseline, significantly improving generalization under distribution shifts. Code is available at: https://github.com/fuyanjie/short-cut-aware-data-centric-reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.