뺄셈을 통한 사고: LLM 추론을 위한 신뢰도 기반 대조 디코딩
Thinking by Subtraction: Confidence-Driven Contrastive Decoding for LLM Reasoning
대형 언어 모델(LLM) 추론의 테스트 타임 스케일링에 대한 최근 연구들은 일반적으로 추론 시간에 더 많은 연산을 할당하면 정확도가 일관되게 향상된다고 가정한다. 그러나 이전 연구들에 따르면 추론의 불확실성은 매우 국소화되어 나타난다. 즉, 소수의 낮은 신뢰도를 가진 토큰들이 추론 오류와 불필요한 출력 확장에 불균형적으로 큰 영향을 미친다. 이러한 관찰에 동기를 부여받아, 우리는 타겟팅된 토큰 수준의 개입을 통해 추론의 신뢰성을 향상시키는 신뢰도 기반 대조 디코딩 접근법인 '뺄셈을 통한 사고(Thinking by Subtraction)'를 제안한다. 우리의 방법인 신뢰도 기반 대조 디코딩(Confidence-Driven Contrastive Decoding, CCD)은 디코딩 과정에서 신뢰도가 낮은 토큰을 감지하고 해당 위치에서 선택적으로 개입한다. 이 방법은 신뢰도가 높은 토큰을 최소한의 자리 표시자(placeholder)로 대체하여 대조 참조(contrastive reference)를 구성하고, 신뢰도가 낮은 위치에서 이 참조 분포를 빼냄으로써 예측을 정제한다. 실험 결과에 따르면, CCD는 최소한의 KV 캐시 오버헤드만으로 수학적 추론 벤치마크 전반에서 정확도를 크게 향상시키는 동시에 출력 길이를 실질적으로 감소시킨다. 추가 학습이 필요 없는(training-free) 방법으로서, CCD는 연산의 중복 없이 타겟팅된 낮은 신뢰도 개입을 통해 추론의 신뢰성을 향상시킨다. 우리의 코드는 https://github.com/bolo-web/CCD 에서 공개될 예정이다.
Recent work on test-time scaling for large language model (LLM) reasoning typically assumes that allocating more inference-time computation uniformly improves correctness. However, prior studies show that reasoning uncertainty is highly localized: a small subset of low-confidence tokens disproportionately contributes to reasoning errors and unnecessary output expansion. Motivated by this observation, we propose Thinking by Subtraction, a confidence-driven contrastive decoding approach that improves reasoning reliability through targeted token-level intervention. Our method, Confidence-Driven Contrastive Decoding, detects low-confidence tokens during decoding and intervenes selectively at these positions. It constructs a contrastive reference by replacing high-confidence tokens with minimal placeholders, and refines predictions by subtracting this reference distribution at low-confidence locations. Experiments show that CCD significantly improves accuracy across mathematical reasoning benchmarks while substantially reducing output length, with minimal KV-cache overhead. As a training-free method, CCD enhances reasoning reliability through targeted low-confidence intervention without computational redundancy. Our code will be made available at: https://github.com/bolo-web/CCD.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.