ConMax: 효율적인 생각의 사슬(Chain-of-Thought) 추론을 위한 신뢰도 최대화 압축
ConMax: Confidence-Maximizing Compression for Efficient Chain-of-Thought Reasoning
거대 추론 모델(LRM)의 최근 획기적인 발전은 복잡한 작업을 해결하기 위해 자기 검증 및 역추적과 같은 정교한 인지 행동을 가능하게 하는 데 있어 광범위한 생각의 사슬(CoT) 생성이 중요하다는 것을 입증했습니다. 그러나 이러한 능력은 종종 '과도한 생각(overthinking)'으로 이어져, 모델이 정확도 향상 없이 계산 비용만 증가시키는 불필요한 추론 경로를 생성하게 합니다. 추론 과정에 대한 지도 미세 조정(SFT)이 '콜드 스타트' 단계를 위한 표준 패러다임이지만, 기존 압축 기술을 이러한 추론 과정에 적용하면 논리적 일관성이 훼손되거나 감당하기 힘든 샘플링 비용이 발생하는 경우가 많습니다. 본 논문에서는 필수적인 추론 패턴을 보존하면서 추론 과정을 자동으로 압축하도록 설계된 새로운 강화 학습 프레임워크인 ConMax(신뢰도 최대화 압축)를 소개합니다. ConMax는 압축을 보상 기반 최적화 문제로 정식화하여, 고정된 보조 LRM을 통해 예측 충실도를 위한 정답 신뢰도와 추론 타당성을 위한 사고 신뢰도의 가중 결합을 최대화함으로써 중복을 제거하도록 정책을 학습합니다. 5가지 추론 데이터셋에 대한 광범위한 실험을 통해 ConMax가 우수한 효율성-성능 트레이드오프를 달성함을 입증했습니다. 구체적으로, 강력한 베이스라인 대비 추론 길이를 43% 줄이면서도 정확도 하락은 불과 0.7%에 그쳐, LRM을 위한 고품질의 효율적인 훈련 데이터를 생성하는 데 효과적임을 증명했습니다.
Recent breakthroughs in Large Reasoning Models (LRMs) have demonstrated that extensive Chain-of-Thought (CoT) generation is critical for enabling intricate cognitive behaviors, such as self-verification and backtracking, to solve complex tasks. However, this capability often leads to ``overthinking'', where models generate redundant reasoning paths that inflate computational costs without improving accuracy. While Supervised Fine-Tuning (SFT) on reasoning traces is a standard paradigm for the 'cold start' phase, applying existing compression techniques to these traces often compromises logical coherence or incurs prohibitive sampling costs. In this paper, we introduce ConMax (Confidence-Maximizing Compression), a novel reinforcement learning framework designed to automatically compress reasoning traces while preserving essential reasoning patterns. ConMax formulates compression as a reward-driven optimization problem, training a policy to prune redundancy by maximizing a weighted combination of answer confidence for predictive fidelity and thinking confidence for reasoning validity through a frozen auxiliary LRM. Extensive experiments across five reasoning datasets demonstrate that ConMax achieves a superior efficiency-performance trade-off. Specifically, it reduces inference length by 43% over strong baselines at the cost of a mere 0.7% dip in accuracy, proving its effectiveness in generating high-quality, efficient training data for LRMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.