2601.03769v3 Jan 07, 2026 cs.AI

EntroCoT: 적응형 엔트로피 유도 분할을 통한 사고 연쇄(Chain-of-Thought) 강화

EntroCoT: Enhancing Chain-of-Thought via Adaptive Entropy-Guided Segmentation

Zihang Li
Zihang Li
Citations: 47
h-index: 3
Yikun Zong
Yikun Zong
Citations: 1
h-index: 1
Wenhan Yu
Wenhan Yu
Citations: 6
h-index: 1
Xiaokun Yuan
Xiaokun Yuan
Citations: 1
h-index: 1
Runhan Jiang
Runhan Jiang
Citations: 22
h-index: 1
Zirui Liu
Zirui Liu
Citations: 187
h-index: 5
Tong Yang
Tong Yang
Citations: 13
h-index: 2
Yuhang Wang
Yuhang Wang
Citations: 314
h-index: 5
Arthur Jiang
Arthur Jiang
Citations: 5
h-index: 1

사고 연쇄(Chain-of-Thought, CoT) 프롬프팅은 대형 언어 모델의 수학적 추론 능력을 크게 향상시켰습니다. 그러나 우리는 기존의 파인튜닝 데이터셋이 환각(hallucination), 불필요한 중복, 또는 논리적으로 타당하지 않은 중간 단계로부터 정답이 도출되는 '답은 맞지만 추론은 틀린' 문제를 빈번하게 겪고 있음을 발견했습니다. 본 논문은 저품질 CoT 지도 데이터를 자동으로 식별하고 정제하기 위한 통합 프레임워크인 EntroCoT를 제안합니다. EntroCoT는 먼저 불확실한 지점에서 추론 과정을 여러 단계로 분할하는 엔트로피 기반 메커니즘을 제안하고, 이후 각 단계의 한계 기여도를 평가하기 위해 몬테카를로 롤아웃 기반 메커니즘을 도입합니다. 기만적인 추론 샘플을 정확하게 필터링함으로써, EntroCoT는 각 추론 과정의 모든 중간 단계가 최종 정답 도출에 기여하는 고품질 데이터셋을 구축합니다. 수학 벤치마크에 대한 광범위한 실험 결과, EntroCoT로 구축된 데이터 부분집합으로 파인튜닝한 모델이 전체 데이터셋을 사용한 베이스라인보다 일관되게 우수한 성능을 보임을 입증했습니다.

Original Abstract

Chain-of-Thought (CoT) prompting has significantly enhanced the mathematical reasoning capabilities of Large Language Models. We find existing fine-tuning datasets frequently suffer from the "answer right but reasoning wrong" probelm, where correct final answers are derived from hallucinated, redundant, or logically invalid intermediate steps. This paper proposes EntroCoT, a unified framework for automatically identifying and refining low-quality CoT supervision traces. EntroCoT first proposes an entropy-based mechanism to segment the reasoning trace into multiple steps at uncertain junctures, and then introduces a Monte Carlo rollout-based mechanism to evaluate the marginal contribution of each step. By accurately filtering deceptive reasoning samples, EntroCoT constructs a high-quality dataset where every intermediate step in each reasoning trace facilitates the final answer. Extensive experiments on mathematical benchmarks demonstrate that fine-tuning on the subset constructed by EntroCoT consistently outperforms the baseslines of full-dataset supervision.

1 Citations
0 Influential
2.5 Altmetric
13.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!