추론의 구조적 수렴을 이용한 RLVR 학습 데이터 탐지
Detecting RLVR Training Data via Structural Convergence of Reasoning
검증 가능한 보상을 활용한 강화 학습(RLVR)은 현대 추론 모델 학습의 핵심이지만, 공개되지 않은 학습 데이터로 인해 벤치마크 오염에 대한 우려가 제기되고 있습니다. 토큰 수준의 확률을 사용하여 모델을 최적화하는 사전 학습 방식과 달리, RLVR은 자체 생성된 추론 궤적에 대한 보상 피드백을 기반으로 모델을 미세 조정하기 때문에 기존의 우도(likelihood) 기반 탐지 방법은 효과가 떨어집니다. 본 연구에서는 RLVR이 독특한 행동적 특징을 유발함을 보입니다. 즉, RLVR 학습 중에 접한 프롬프트는 더 경직되고 유사한 생성 결과를 보이는 반면, 학습하지 않은 프롬프트는 더 큰 다양성을 유지합니다. 우리는 주어진 프롬프트에 대해 여러 완성본을 샘플링하고 가장 작은 $k$개의 최근접 이웃 편집 거리의 평균을 계산하여 이러한 획일화 현상을 정량화하는 간단한 블랙박스 탐지기인 Min-$k$NN Distance를 제안합니다. Min-$k$NN Distance는 참조 모델이나 토큰 확률에 접근할 필요가 없습니다. 여러 RLVR 학습 추론 모델에 대한 실험을 통해, Min-$k$NN Distance가 RL 학습 예제와 비학습 예제를 신뢰성 있게 구분하며, 기존의 멤버십 추론 및 RL 오염 탐지 베이스라인보다 성능이 우수함을 입증했습니다.
Reinforcement learning with verifiable rewards (RLVR) is central to training modern reasoning models, but the undisclosed training data raises concerns about benchmark contamination. Unlike pretraining methods, which optimize models using token-level probabilities, RLVR fine-tunes models based on reward feedback from self-generated reasoning trajectories, making conventional likelihood-based detection methods less effective. We show that RLVR induces a distinctive behavioral signature: prompts encountered during RLVR training result in more rigid and similar generations, while unseen prompts retain greater diversity. We introduce Min-$k$NN Distance, a simple black-box detector that quantifies this collapse by sampling multiple completions for a given prompt and computing the average of the $k$ smallest nearest-neighbor edit distances. Min-$k$NN Distance requires no access to the reference model or token probabilities. Experiments across multiple RLVR-trained reasoning models show that Min-$k$NN Distance reliably distinguishes RL-seen examples from unseen ones and outperforms existing membership inference and RL contamination detection baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.