ProFit: 확률 기반 토큰 선택을 통한 SFT에서 고가치 신호 활용
ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection
지도 미세 조정(SFT)은 대규모 언어 모델(LLM)을 인간의 의도에 맞추는 데 사용되는 기본적인 후처리 전략입니다. 그러나 기존의 SFT는 언어의 일대다 관계를 무시하고, 단일 참조 답변에 맞춰 모델을 조정함으로써 모델이 핵심 표현이 아닌 부분에 과도하게 적응하는 경향이 있습니다. 우리의 경험적 분석에 따르면, 여러 참조 답변을 도입하면 이 문제를 완화할 수 있지만, 막대한 데이터 및 계산 비용으로 인해, 답변 다양성을 추구하기보다는 단일 참조로 인한 과적합을 해결하는 데 우선순위를 두어야 합니다. 이를 위해, 우리는 토큰 확률과 의미적 중요성 간의 내재적인 연관성을 밝혀냈습니다. 즉, 높은 확률을 가진 토큰은 핵심적인 논리적 구조를 담고 있는 반면, 낮은 확률을 가진 토큰은 대체 가능한 표현인 경우가 많습니다. 이러한 통찰력을 바탕으로, 우리는 표면적인 과적합을 방지하기 위해 낮은 확률의 토큰을 선택적으로 마스킹하는 ProFit을 제안합니다. 광범위한 실험 결과, ProFit은 일반적인 추론 및 수학적 벤치마크에서 기존의 SFT 기준 성능을 지속적으로 능가하는 것으로 나타났습니다.
Supervised fine-tuning (SFT) is a fundamental post-training strategy to align Large Language Models (LLMs) with human intent. However, traditional SFT often ignores the one-to-many nature of language by forcing alignment with a single reference answer, leading to the model overfitting to non-core expressions. Although our empirical analysis suggests that introducing multiple reference answers can mitigate this issue, the prohibitive data and computational costs necessitate a strategic shift: prioritizing the mitigation of single-reference overfitting over the costly pursuit of answer diversity. To achieve this, we reveal the intrinsic connection between token probability and semantic importance: high-probability tokens carry the core logical framework, while low-probability tokens are mostly replaceable expressions. Based on this insight, we propose ProFit, which selectively masks low-probability tokens to prevent surface-level overfitting. Extensive experiments confirm that ProFit consistently outperforms traditional SFT baselines on general reasoning and mathematical benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.