2601.20585v1 Jan 28, 2026 cs.LG

순위 정보를 고려한 강화 학습을 이용한 순위 결정

Ranking-aware Reinforcement Learning for Ordinal Ranking

Aiming Hao
Aiming Hao
Citations: 70
h-index: 3
Chen Zhu
Chen Zhu
Citations: 99
h-index: 4
Jiashu Zhu
Jiashu Zhu
Citations: 208
h-index: 7
Jiahong Wu
Jiahong Wu
Citations: 167
h-index: 7
Xiangxiang Chu
Xiangxiang Chu
Citations: 131
h-index: 6

순위 회귀 및 순위 결정은 고유한 순서 의존성 때문에 기존 방법으로는 제대로 모델링하기 어렵습니다. 본 논문에서는 이러한 관계를 명시적으로 학습하는 새로운 강화 학습 프레임워크인 순위 인식 강화 학습(Ranking-Aware Reinforcement Learning, RARL)을 제안합니다. RARL의 핵심은 회귀와 학습 기반 순위 결정(Learning-to-Rank, L2R)을 통합적으로 결합하는 단일 목적 함수를 사용하여 두 가지 작업 간의 상호 개선을 가능하게 합니다. 이는 회귀 정확도와 순위 정확도를 동시에 평가하는 순위 인식 보상을 통해 정책 최적화를 통해 직접적인 모델 업데이트를 가능하게 합니다. 또한, 훈련을 더욱 향상시키기 위해, 탐색을 개선하고 안점에서의 정체를 방지하기 위해 제어된 노이즈를 주입하는 응답 변형 연산(Response Mutation Operations, RMO)을 도입했습니다. RARL의 효과는 세 가지 서로 다른 벤치마크를 사용한 광범위한 실험을 통해 검증되었습니다.

Original Abstract

Ordinal regression and ranking are challenging due to inherent ordinal dependencies that conventional methods struggle to model. We propose Ranking-Aware Reinforcement Learning (RARL), a novel RL framework that explicitly learns these relationships. At its core, RARL features a unified objective that synergistically integrates regression and Learning-to-Rank (L2R), enabling mutual improvement between the two tasks. This is driven by a ranking-aware verifiable reward that jointly assesses regression precision and ranking accuracy, facilitating direct model updates via policy optimization. To further enhance training, we introduce Response Mutation Operations (RMO), which inject controlled noise to improve exploration and prevent stagnation at saddle points. The effectiveness of RARL is validated through extensive experiments on three distinct benchmarks.

1 Citations
0 Influential
3.5 Altmetric
18.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!