FoE: 오류의 숲 - 대규모 추론 모델에서 첫 번째 솔루션이 가장 좋은 이유
FoE: Forest of Errors Makes the First Solution the Best in Large Reasoning Models
최근 DeepSeek-R1과 같은 대규모 추론 모델(LRM)은 복잡한 추론 작업에서 놀라운 성공을 거두며, 인간과 유사한 방식으로 여러 가지 대안적인 솔루션을 탐색하는 모습을 보입니다. 그러나 자세히 살펴보면 놀라운 현상이 발견됩니다. 바로 '첫 번째가 최고(The First is The Best)'라는 현상인데, 여기서 대안적인 솔루션은 단순히 최적이 아닌, 잠재적으로 해로운 결과를 초래할 수 있습니다. 이러한 관찰은 널리 받아들여지는 테스트 시간 스케일링 법칙에 도전하며, 추론 경로 내의 오류가 테스트 시간과 함께 증가한다는 가설을 제시합니다. 종합적인 실험 분석을 통해, 오류를 '오류의 숲(Forest of Errors, FoE)'이라는 계층적 구조로 특징짓고, FoE가 '첫 번째가 최고'라는 현상을 유발한다는 결론을 내립니다. 이러한 통찰력을 바탕으로, 저희는 두 가지 구성 요소로 이루어진 자체 안내 효율적인 추론 프레임워크인 RED를 제안합니다. 첫 번째 구성 요소는 '첫 번째 솔루션 개선(Refining First)'으로, 첫 번째 솔루션에서 FoE의 성장을 억제합니다. 두 번째 구성 요소는 '불필요한 항목 제거(Discarding Subs)'로, 이중 일관성을 통해 후속 FoE를 제거합니다. 다섯 가지 벤치마크와 여섯 가지 기본 모델에 대한 광범위한 실험 결과, RED는 여덟 가지 경쟁 모델보다 뛰어난 성능을 보이며, 최대 19.0%의 성능 향상을 달성하는 동시에 토큰 사용량을 37.7%에서 70.4%까지 줄였습니다. 또한, FoE 관련 지표에 대한 비교 실험을 통해 RED가 어떻게 효과를 달성하는지에 대한 통찰력을 제공합니다.
Recent Large Reasoning Models (LRMs) like DeepSeek-R1 have demonstrated remarkable success in complex reasoning tasks, exhibiting human-like patterns in exploring multiple alternative solutions. Upon closer inspection, however, we uncover a surprising phenomenon: The First is The Best, where alternative solutions are not merely suboptimal but potentially detrimental. This observation challenges widely accepted test-time scaling laws, leading us to hypothesize that errors within the reasoning path scale concurrently with test time. Through comprehensive empirical analysis, we characterize errors as a forest-structured Forest of Errors (FoE) and conclude that FoE makes the First the Best, which is underpinned by rigorous theoretical analysis. Leveraging these insights, we propose RED, a self-guided efficient reasoning framework comprising two components: I) Refining First, which suppresses FoE growth in the first solution; and II) Discarding Subs, which prunes subsequent FoE via dual-consistency. Extensive experiments across five benchmarks and six backbone models demonstrate that RED outperforms eight competitive baselines, achieving performance gains of up to 19.0% while reducing token consumption by 37.7% ~ 70.4%. Moreover, comparative experiments on FoE metrics shed light on how RED achieves effectiveness.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.