EntroCoT: 적응형 엔트로피 유도 분할을 통한 사고 연쇄(Chain-of-Thought) 강화
EntroCoT: Enhancing Chain-of-Thought via Adaptive Entropy-Guided Segmentation
사고 연쇄(Chain-of-Thought, CoT) 프롬프팅은 대형 언어 모델의 수학적 추론 능력을 크게 향상시켰습니다. 그러나 우리는 기존의 파인튜닝 데이터셋이 환각(hallucination), 불필요한 중복, 또는 논리적으로 타당하지 않은 중간 단계로부터 정답이 도출되는 '답은 맞지만 추론은 틀린' 문제를 빈번하게 겪고 있음을 발견했습니다. 본 논문은 저품질 CoT 지도 데이터를 자동으로 식별하고 정제하기 위한 통합 프레임워크인 EntroCoT를 제안합니다. EntroCoT는 먼저 불확실한 지점에서 추론 과정을 여러 단계로 분할하는 엔트로피 기반 메커니즘을 제안하고, 이후 각 단계의 한계 기여도를 평가하기 위해 몬테카를로 롤아웃 기반 메커니즘을 도입합니다. 기만적인 추론 샘플을 정확하게 필터링함으로써, EntroCoT는 각 추론 과정의 모든 중간 단계가 최종 정답 도출에 기여하는 고품질 데이터셋을 구축합니다. 수학 벤치마크에 대한 광범위한 실험 결과, EntroCoT로 구축된 데이터 부분집합으로 파인튜닝한 모델이 전체 데이터셋을 사용한 베이스라인보다 일관되게 우수한 성능을 보임을 입증했습니다.
Chain-of-Thought (CoT) prompting has significantly enhanced the mathematical reasoning capabilities of Large Language Models. We find existing fine-tuning datasets frequently suffer from the "answer right but reasoning wrong" probelm, where correct final answers are derived from hallucinated, redundant, or logically invalid intermediate steps. This paper proposes EntroCoT, a unified framework for automatically identifying and refining low-quality CoT supervision traces. EntroCoT first proposes an entropy-based mechanism to segment the reasoning trace into multiple steps at uncertain junctures, and then introduces a Monte Carlo rollout-based mechanism to evaluate the marginal contribution of each step. By accurately filtering deceptive reasoning samples, EntroCoT constructs a high-quality dataset where every intermediate step in each reasoning trace facilitates the final answer. Extensive experiments on mathematical benchmarks demonstrate that fine-tuning on the subset constructed by EntroCoT consistently outperforms the baseslines of full-dataset supervision.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.