더 깊이보다 넓게 최적화: 정책 최적화를 위한 합의 집계
Optimize Wider, Not Deeper: Consensus Aggregation for Policy Optimization
프록시멀 정책 최적화(PPO)는 클리핑된 SGD의 여러 에포크를 사용하여 신뢰 영역 업데이트를 근사합니다. 각 에포크는 자연 기울기 방향에서 더 멀어질 수 있으며, 이는 경로 의존적인 노이즈를 생성합니다. 이러한 드리프트를 이해하기 위해, 우리는 피셔 정보 기하학을 사용하여 정책 업데이트를 신호(자연 기울기 투영)와 낭비(신뢰 영역 예산을 소모하지만 1차 대리 개선을 가져오지 않는 피셔 직교 잔차)로 분해할 수 있습니다. 실험적으로, 신호는 포화되지만 에포크가 추가될수록 낭비는 증가하여 최적화 깊이의 딜레마를 야기합니다. 우리는 정책 최적화를 위한 합의 집계(CAPO)를 제안합니다. CAPO는 계산 자원을 깊이보다 폭에 할당합니다. 즉, $K$개의 PPO 복제본을 동일한 배치에서 최적화하며, 각 복제본은 미니배치 셔플링 순서만 다릅니다. 그런 다음, 이러한 복제본을 합의하여 결합합니다. 우리는 두 공간에서 집계 방식을 연구합니다. 즉, 유클리드 파라미터 공간과 정책 분포의 자연 파라미터 공간(로그 의견 풀 사용). 자연 파라미터 공간에서, 합의는 증명적으로 평균 전문가보다 더 높은 KL 페널티 대리 성능과 더 엄격한 신뢰 영역 준수를 달성합니다. 파라미터 평균화는 이러한 보장을 대략적으로 상속합니다. 연속 제어 작업에서, CAPO는 고정된 샘플 예산 하에서 PPO 및 계산량적으로 동일한 더 깊은 기준 모델보다 최대 8.6배 더 뛰어난 성능을 보입니다. CAPO는 추가적인 환경 상호 작용 없이 정책 최적화를 더 넓게 최적화함으로써 개선할 수 있음을 보여줍니다.
Proximal policy optimization (PPO) approximates the trust region update using multiple epochs of clipped SGD. Each epoch may drift further from the natural gradient direction, creating path-dependent noise. To understand this drift, we can use Fisher information geometry to decompose policy updates into signal (the natural gradient projection) and waste (the Fisher-orthogonal residual that consumes trust region budget without first-order surrogate improvement). Empirically, signal saturates but waste grows with additional epochs, creating an optimization-depth dilemma. We propose Consensus Aggregation for Policy Optimization (CAPO), which redirects compute from depth to width: $K$ PPO replicates are optimized on the same batch, differing only in minibatch shuffling order, and then aggregated into a consensus. We study aggregation in two spaces: Euclidean parameter space, and the natural parameter space of the policy distribution via the logarithmic opinion pool. In natural parameter space, the consensus provably achieves higher KL-penalized surrogate and tighter trust region compliance than the mean expert; parameter averaging inherits these guarantees approximately. On continuous control tasks, CAPO outperforms PPO and compute-matched deeper baselines under fixed sample budgets by up to 8.6x. CAPO demonstrates that policy optimization can be improved by optimizing wider, rather than deeper, without additional environment interactions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.