2602.03516v2 Feb 03, 2026 cs.LG

모든 부정 샘플은 동일하지 않다: LLM은 더 신뢰할 수 있는 추론으로부터 더 잘 학습한다

Not All Negative Samples Are Equal: LLMs Learn Better from Plausible Reasoning

Zixiang Di
Zixiang Di
Citations: 2
h-index: 1
Jinyi Han
Jinyi Han
Citations: 16
h-index: 2
Shuo Zhang
Shuo Zhang
Citations: 182
h-index: 9
Ying Liao
Ying Liao
Citations: 9
h-index: 2
Zhi Li
Zhi Li
Citations: 13
h-index: 1
Xiaofeng Ji
Xiaofeng Ji
Citations: 13
h-index: 1
Yongqi Wang
Yongqi Wang
Citations: 21
h-index: 2
Zheming Yang
Zheming Yang
Citations: 301
h-index: 4
Ming Gao
Ming Gao
Citations: 0
h-index: 0
Bingdong Li
Bingdong Li
Citations: 0
h-index: 0
Jie Wang
Jie Wang
Citations: 56
h-index: 5

부정 샘플을 활용한 학습은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 큰 잠재력을 가지고 있지만, 기존 방법은 모든 부정적인 응답을 동일한 정보 가치로 취급하여 샘플 품질의 중요한 역할을 간과합니다. 이를 해결하기 위해, 우리는 고품질의 부정 샘플을 생성하는 방법인 'Plausible Negative Samples (PNS)'를 제안합니다. PNS는 예상되는 형식과 구조적 일관성을 유지하면서 궁극적으로는 잘못된 답변을 생성하는 부정 샘플을 합성합니다. PNS는 형식 준수, 정확성 반전, 보상 모델 평가 및 사고 과정 평가를 결합한 복합 보상을 사용하여 역강화 학습(RL)을 통해 훈련된 전용 모델을 사용하며, 생성된 응답은 정답과 거의 구별할 수 없을 정도로 유사합니다. 또한, PNS를 세 가지 기본 모델에 대한 일곱 가지 수학적 추론 벤치마크에서 선호도 최적화를 위한 플러그 앤 플레이 데이터 소스로 검증했습니다. 결과는 PNS가 다른 부정 샘플 생성 방법보다 일관되게 우수한 성능을 보이며, RL로 훈련된 모델에 대해 평균 2.03%의 성능 향상을 달성한다는 것을 보여줍니다.

Original Abstract

Learning from negative samples holds great promise for improving Large Language Model (LLM) reasoning capability, yet existing methods treat all incorrect responses as equally informative, overlooking the crucial role of sample quality. To address this, we propose Plausible Negative Samples (PNS), a method that synthesizes high-quality negative samples exhibiting expected format and structural coherence while ultimately yielding incorrect answers. PNS trains a dedicated model via reverse reinforcement learning (RL) guided by a composite reward combining format compliance, accuracy inversion, reward model assessment, and chain-of-thought evaluation, generating responses nearly indistinguishable from correct solutions. We further validate PNS as a plug-and-play data source for preference optimization across three backbone models on seven mathematical reasoning benchmarks. Results demonstrate that PNS consistently outperforms other negative sample synthesis methods, achieving an average improvement of 2.03% over RL-trained models.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!