자기 검증 딜레마: LLM 추론 과정에서 과도하게 사용되는 검증의 경험 기반 억제
Self-Verification Dilemma: Experience-Driven Suppression of Overused Checking in LLM Reasoning
대규모 추론 모델(LRM)은 반성을 통해 생성되는 긴 추론 과정을 통해 뛰어난 성능을 달성합니다. 대규모 실증 분석을 통해, 반성 단계의 상당 부분이 반복적으로 중간 결과를 확인하는 자기 검증(재확인)으로 구성됨을 발견했습니다. 이러한 재확인은 다양한 모델과 벤치마크에서 빈번하게 발생하지만, 대부분은 오류를 수정하기보다는 결과를 확인하는 데 사용되며, 실제로 추론 결과를 변경하는 경우는 드뭅니다. 이는 자기 검증이 얼마나 자주 활성화되는지, 그리고 실제로 얼마나 유용한지에 대한 불일치를 보여줍니다. 이러한 문제점을 해결하기 위해, 우리는 과도하게 사용되는 검증을 줄이는 새로운, 경험 기반의 테스트 시간 프레임워크를 제안합니다. 우리의 방법은 재확인 동작을 감지하고, 과거 검증 결과의 오프라인 경험 풀을 참조하여, 재확인이 불필요할 가능성을 효율적으로 추정합니다. 과거 경험이 불필요함을 시사할 경우, 억제 신호가 모델을 다른 경로로 안내합니다. 여러 모델과 벤치마크에서, 우리의 접근 방식은 토큰 사용량을 최대 20.3%까지 줄이면서 정확도를 유지하며, 일부 데이터 세트에서는 정확도 향상을 가져옵니다.
Large Reasoning Models (LRMs) achieve strong performance by generating long reasoning traces with reflection. Through a large-scale empirical analysis, we find that a substantial fraction of reflective steps consist of self-verification (recheck) that repeatedly confirm intermediate results. These rechecks occur frequently across models and benchmarks, yet the vast majority are confirmatory rather than corrective, rarely identifying errors and altering reasoning outcomes. This reveals a mismatch between how often self-verification is activated and how often it is actually useful. Motivated by this, we propose a novel, experience-driven test-time framework that reduces the overused verification. Our method detects the activation of recheck behavior, consults an offline experience pool of past verification outcomes, and estimates whether a recheck is likely unnecessary via efficient retrieval. When historical experience suggests unnecessary, a suppression signal redirects the model to proceed. Across multiple model and benchmarks, our approach reduces token usage up to 20.3% while maintaining the accuracy, and in some datasets even yields accuracy improvements.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.