시퀀스 레벨 강화 학습에서의 비교 단위 재고: 손실 보정부터 샘플 생성까지의 동일 길이 페어링 학습 프레임워크
Rethinking the Comparison Unit in Sequence-Level Reinforcement Learning: An Equal-Length Paired Training Framework from Loss Correction to Sample Construction
본 논문은 시퀀스 레벨 상대적 강화 학습에서 발생하는 길이 문제를 연구합니다. 기존 방법들이 길이 관련 현상을 부분적으로 완화하지만, 여전히 근본적인 문제는 충분히 규명되지 않았습니다. 즉, 학습 과정에서 사용되는 비교 단위들이 본질적인 비교 가능성을 갖추지 못한다는 점입니다. 이러한 관찰을 바탕으로, 길이 문제는 단순히 손실 스케일링 또는 정규화 편향으로만 볼 것이 아니라, extit{비교 단위 구성} 문제로 이해해야 한다는 새로운 관점을 제시합니다. 또한, 우리는 불균등한 길이의 응답에 사후적으로 수정을 가하는 대신, 생성 과정에서 동일한 길이, 정렬 가능하며 비교 가능한 학습 세그먼트를 능동적으로 구성하는 샘플 생성 기반의 학습 프레임워크를 제안합니다. 이 프레임워크 내에서, 우리는 GRPO, GSPO, RLOO와 같은 그룹 상대 비교 알고리즘에 적용 가능한 구체적인 방법인 EqLen을 제안합니다. EqLen은 이중 트랙 동기화 생성, 접두사 상속 및 세그먼트 마스킹을 통해 효율적인 동일 길이 학습 세그먼트를 수집하고 안정적인 학습을 가능하게 합니다.
This paper investigates the length problem in sequence-level relative reinforcement learning. We observe that, although existing methods partially alleviate length-related phenomena, a more fundamental issue remains insufficiently characterized: the comparison units used during training lack inherent comparability. Building on this observation, we propose a new perspective: the length problem should not be viewed merely as a loss-scaling or normalization bias, but rather as a \emph{comparison unit construction} problem. We further establish a sample-construction-based training framework that, instead of applying post-hoc corrections to unequal-length responses, proactively constructs equal-length, alignable, and comparable training segments during generation. Within this framework, we propose EqLen, a concrete method applicable to group-relative comparison algorithms such as GRPO, GSPO, and RLOO. Through dual-track synchronous generation, prefix inheritance, and segment masking, EqLen efficiently collects effective equal-length training segments and enables stable
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.