2602.06627v1 Feb 06, 2026 cs.LG

신뢰 영역은 판매되지만, 누가 구매할까? 정책 최적화를 위한 대체 신뢰 영역으로서의 겹침 기하학

Trust Regions Sell, But Who's Buying? Overlap Geometry as an Alternative Trust Region for Policy Optimization

K. Bhandari
K. Bhandari
Citations: 8
h-index: 1
Pratik Narang
Pratik Narang
Citations: 1
h-index: 1
G. Trivedi
G. Trivedi
Citations: 0
h-index: 0
Alakh Sharma
Alakh Sharma
Citations: 0
h-index: 0
Yash Sinha
Yash Sinha
Citations: 94
h-index: 5
Dhruv Kumar
Dhruv Kumar
Citations: 66
h-index: 4
J. Challa
J. Challa
Citations: 347
h-index: 11

기존의 신뢰 영역 방법은 쿨백-라이블러(KL) 발산 값을 이용하여 정책 업데이트를 제한합니다. 그러나 KL 발산은 평균 발산 값만을 제어하며, 훈련을 불안정하게 만드는 극히 드물고 큰 확률 비율 변화를 직접적으로 방지하지 못합니다. 이러한 문제점을 해결하기 위해, 본 논문에서는 겹침 기하학을 새로운 신뢰 영역으로 제안합니다. 겹침 기하학은 Bhattacharyya 계수를 이용하여 분포의 겹침 정도를 제한하며, 이는 Hellinger/Renyi-1/2 기하학과 밀접하게 관련되어 있습니다. 제안하는 방법은 확률 비율의 꼬리 부분에서의 차이를 벌칙으로 부과하여, 전체 변동 범위에 대한 제약 없이 확률 비율 변화에 대한 더욱 엄격한 제어를 가능하게 합니다. 본 논문에서는 Bhattacharyya-TRPO (BTRPO) 및 Bhattacharyya-PPO (BPPO)를 개발하여, 제곱근 비율 업데이트를 통해 겹침 제약을 적용합니다. BPPO는 제곱근 비율 q = sqrt(r)을 클리핑하고, BTRPO는 이차 Hellinger/Bhattacharyya 페널티를 적용합니다. 실험 결과, 겹침 기반 업데이트는 동일한 훈련 예산 하에서 RLiable 지표로 측정된 안정성 및 전체 성능을 향상시키며, 이는 겹침 제약이 안정적인 정책 최적화를 위한 실용적이고 합리적인 대안이 될 수 있음을 시사합니다.

Original Abstract

Standard trust-region methods constrain policy updates via Kullback-Leibler (KL) divergence. However, KL controls only an average divergence and does not directly prevent rare, large likelihood-ratio excursions that destabilize training--precisely the failure mode that motivates heuristics such as PPO's clipping. We propose overlap geometry as an alternative trust region, constraining distributional overlap via the Bhattacharyya coefficient (closely related to the Hellinger/Renyi-1/2 geometry). This objective penalizes separation in the ratio tails, yielding tighter control over likelihood-ratio excursions without relying on total variation bounds that can be loose in tail regimes. We derive Bhattacharyya-TRPO (BTRPO) and Bhattacharyya-PPO (BPPO), enforcing overlap constraints via square-root ratio updates: BPPO clips the square-root ratio q = sqrt(r), and BTRPO applies a quadratic Hellinger/Bhattacharyya penalty. Empirically, overlap-based updates improve robustness and aggregate performance as measured by RLiable under matched training budgets, suggesting overlap constraints as a practical, principled alternative to KL for stable policy optimization.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!