LLM 추론 데이터 선택 시 단계 길이 편향 문제에 대한 연구
On the Step Length Confounding in LLM Reasoning Data Selection
최근, 대규모 추론 모델은 대규모 고품질 데이터셋을 활용한 지도 학습을 통해 복잡한 작업에서 뛰어난 성능을 보여주었습니다. 이러한 데이터셋을 구축하기 위해 기존 파이프라인은 더 강력한 대규모 언어 모델(LLM)을 사용하여 긴 추론 데이터를 생성하고, 수동으로 설정된 휴리스틱 또는 자연스러움 기반의 선택 방법을 적용하여 고품질 샘플을 필터링합니다. 자연스러움 기반 데이터 선택 방법은 LLM이 할당하는 평균 로그 확률을 기준으로 데이터를 순위를 매기는 방식으로, 효과성이 입증되었지만, 본 연구에서는 LLM 추론 데이터셋에 적용할 때, 이 방법이 실제로 더 높은 품질의 샘플보다는 더 긴 추론 단계(즉, 단계당 더 많은 토큰)를 가진 샘플을 체계적으로 선호한다는 것을 발견했습니다. 우리는 이를 '단계 길이 편향' 현상이라고 명명합니다. 정량적 분석을 통해, 이 현상은 추론 단계의 낮은 확률의 첫 번째 토큰 때문이며, 더 긴 단계는 이러한 토큰의 영향을 희석시켜 평균 로그 확률을 인위적으로 증가시킨다는 것을 밝혀냈습니다. 이 문제를 해결하기 위해, 우리는 두 가지 변형 방법을 제안합니다. 첫 번째는 평균 로그 확률을 계산할 때 첫 번째 토큰의 확률을 제거하는 ASLEC-DROP이고, 두 번째는 인과적 편향 제거 회귀를 적용하여 첫 번째 토큰의 편향 효과를 제거하는 ASLEC-CASL입니다. 4개의 LLM과 5개의 평가 벤치마크를 사용한 실험 결과, 제안하는 방법은 단계 길이 편향 문제를 완화하는 데 효과적임이 입증되었습니다.
Large reasoning models have recently demonstrated strong performance on complex tasks that require long chain-of-thought reasoning, through supervised fine-tuning on large-scale and high-quality datasets. To construct such datasets, existing pipelines generate long reasoning data from more capable Large Language Models (LLMs) and apply manually heuristic or naturalness-based selection methods to filter high-quality samples. Despite the proven effectiveness of naturalness-based data selection, which ranks data by the average log probability assigned by LLMs, our analysis shows that, when applied to LLM reasoning datasets, it systematically prefers samples with longer reasoning steps (i.e., more tokens per step) rather than higher-quality ones, a phenomenon we term step length confounding. Through quantitative analysis, we attribute this phenomenon to low-probability first tokens in reasoning steps; longer steps dilute their influence, thereby inflating the average log probabilities. To address this issue, we propose two variant methods: ASLEC-DROP, which drops first-token probabilities when computing average log probability, and ASLEC-CASL, which applies a causal debiasing regression to remove the first tokens' confounding effect. Experiments across four LLMs and five evaluation benchmarks demonstrate the effectiveness of our approach in mitigating the step length confounding problem.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.