SetPO: 다양성을 보존하는 LLM 추론을 위한 집합 수준 정책 최적화
SetPO: Set-Level Policy Optimization for Diversity-Preserving LLM Reasoning
검증 가능한 보상을 활용한 강화 학습은 대규모 언어 모델(LLM)의 추론 성능, 특히 수학 과제에서의 성능을 향상시키는 데 있어 주목할 만한 효과를 보여주었습니다. 그러나 이러한 성능 향상은 종종 결과 다양성의 감소를 동반하며, 이는 모델이 좁은 범위의 해답에 확률 질량을 집중시키는 현상으로 나타납니다. 수확 체감의 원리에 착안하여, 본 연구는 커널 유사도를 사용하여 샘플링된 궤적에 대해 정의된 집합 수준의 다양성 목적 함수를 제안합니다. 우리의 접근 방식은 각 샘플링된 궤적에 대해 '리브-원-아웃(leave-one-out)' 한계 기여도를 도출하고, 이 목적 함수를 정책 최적화를 위한 플러그인 어드밴티지 셰이핑(advantage shaping) 항으로 통합합니다. 더 나아가 분포 섭동 프레임워크 내에서 단일 궤적이 언어 모델의 다양성에 미치는 기여를 조사합니다. 이러한 분석은 이론적으로 단조성을 확인해주며, 희귀한 궤적일수록 전역적 다양성에 대해 일관되게 더 높은 한계 기여를 제공함을 증명합니다. 다양한 모델 규모에 걸친 광범위한 실험을 통해 제안된 알고리즘의 유효성을 입증하였으며, 여러 벤치마크의 Pass@1 및 Pass@K 지표 모두에서 강력한 베이스라인 모델들을 일관되게 능가하는 성능을 보였습니다.
Reinforcement learning with verifiable rewards has shown notable effectiveness in enhancing large language models (LLMs) reasoning performance, especially in mathematics tasks. However, such improvements often come with reduced outcome diversity, where the model concentrates probability mass on a narrow set of solutions. Motivated by diminishing-returns principles, we introduce a set level diversity objective defined over sampled trajectories using kernelized similarity. Our approach derives a leave-one-out marginal contribution for each sampled trajectory and integrates this objective as a plug-in advantage shaping term for policy optimization. We further investigate the contribution of a single trajectory to language model diversity within a distribution perturbation framework. This analysis theoretically confirms a monotonicity property, proving that rarer trajectories yield consistently higher marginal contributions to the global diversity. Extensive experiments across a range of model scales demonstrate the effectiveness of our proposed algorithm, consistently outperforming strong baselines in both Pass@1 and Pass@K across various benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.