Long Chain-of-Thought 내 사고의 함정: 정량적 연구 및 함정 인식 적응형 재시작
Thinking Traps in Long Chain-of-Thought: A Measurable Study and Trap-Aware Adaptive Restart
Long Chain-of-Thought (Long-CoT)를 활용한 테스트 시간 연산 확장은 추론 능력을 크게 향상시키지만, 긴 생성이 반드시 정답을 보장하는 것은 아니다. 모델이 초기에 잘못된 판단을 내릴 경우, 자체적으로는 일관성이 있지만 틀린 내용을 계속해서 확장해 나갈 수 있기 때문이다. 본 연구는 세밀한 궤적 분석을 통해, 이후의 성찰, 대안 시도, 또는 검증으로도 근본적인 오류를 수정하지 못하는 '접두어 지배적 교착 상태'인 '사고의 함정(Thinking Traps)'을 규명했다. 엄선된 DAPO-MATH 하위 데이터셋에서 실패 사례의 89%가 이러한 함정을 보였다. 이 문제를 해결하기 위해 우리는 테스트 시간 제어 프레임워크인 TAAR(Trap-Aware Adaptive Restart, 함정 인식 적응형 재시작)를 제안한다. TAAR은 부분 궤적에서 두 가지 신호, 즉 궤적을 어디서 잘라낼지 결정하는 '함정 인덱스'와 개입 여부 및 강도를 결정하는 '탈출 확률'을 예측하도록 진단 정책을 학습시킨다. 추론 시 TAAR은 예측된 함정 구간 앞에서 궤적을 잘라내고 적응적으로 디코딩을 재시작하며, 심각하게 함정에 빠진 경우에는 더 높은 온도의 리샘플링과 선택적인 구조화된 재부팅 접미사를 포함하여 더 강력한 변화를 적용한다. 까다로운 수학 및 과학 추론 벤치마크(AIME24, AIME25, GPQA-Diamond, HMMT25, BRUMO25)에 대한 실험 결과, TAAR은 기본 모델 파라미터를 미세 조정하지 않고도 추론 성능을 향상시키는 것으로 나타났다.
Scaling test-time compute via Long Chain-of-Thought (Long-CoT) significantly enhances reasoning capabilities, yet extended generation does not guarantee correctness: after an early wrong commitment, models may keep elaborating a self-consistent but incorrect prefix. Through fine-grained trajectory analysis, we identify Thinking Traps, prefix-dominant deadlocks where later reflection, alternative attempts, or verification fails to revise the root error. On a curated subset of DAPO-MATH, 89\% of failures exhibit such traps. To solve this problem, we introduce TAAR (Trap-Aware Adaptive Restart), a test-time control framework that trains a diagnostic policy to predict two signals from partial trajectories: a trap index for where to truncate and an escape probability for whether and how strongly to intervene. At inference time, TAAR truncates the trajectory before the predicted trap segment and adaptively restarts decoding; for severely trapped cases, it applies stronger perturbations, including higher-temperature resampling and an optional structured reboot suffix. Experiments on challenging mathematical and scientific reasoning benchmarks (AIME24, AIME25, GPQA-Diamond, HMMT25, BRUMO25) show that TAAR improves reasoning performance without fine-tuning base model parameters.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.