PRISM: MORL을 위한 대칭성을 활용한 병렬 보상 통합
PRISM: Parallel Reward Integration with Symmetry for MORL
본 논문에서는 목적 함수들이 시간적 빈도 측면에서 크게 다를 수 있는 이질적 다중 목적 강화학습(Multi-Objective Reinforcement Learning, MORL)을 연구한다. 이러한 이질성으로 인해 밀집된(dense) 목적이 학습을 지배하게 되는 반면, 희소한(sparse) 장기 보상은 약한 신용 할당(credit assignment)을 받아 결과적으로 샘플 효율성이 저하된다. 우리는 보상 채널을 정렬할 때 반사 대칭(reflectional symmetry)을 귀납적 편향(inductive bias)으로 강제하는 대칭성을 활용한 병렬 보상 통합(Parallel Reward Integration with Symmetry, PRISM) 알고리즘을 제안한다. PRISM은 목적 간의 시간적 빈도 불일치를 조정하는 이론 기반 모델인 ReSymNet을 도입하며, 잔차 블록(residual blocks)을 사용해 최적 정책을 유지하면서도 탐색을 가속화하는 스케일 조정된 기회 가치(scaled opportunity value)를 학습한다. 또한, 에이전트 미러링(mirroring)을 강제하고 정책 탐색을 반사 동변(reflection-equivariant) 부분공간으로 제한하는 반사 동변성 정규화 기법인 SymReg를 제안한다. 이러한 제약은 가설 공간의 복잡도를 입증 가능하게 줄이고 일반화 성능을 향상시킨다. MuJoCo 벤치마크 전반에서 PRISM은 파레토 커버리지(Pareto coverage)와 분포 균형(distributional balance)을 개선하여, 희소 보상 베이스라인과 완전한 밀집 보상으로 학습된 오라클(oracle) 모두를 일관되게 능가한다. 구체적으로 베이스라인 대비 100\% 이상, 오라클 대비 최대 32\%의 하이퍼볼륨(hypervolume) 향상을 달성한다. 관련 코드는 \href{https://github.com/EVIEHub/PRISM}{https://github.com/EVIEHub/PRISM}에서 확인할 수 있다.
This work studies heterogeneous Multi-Objective Reinforcement Learning (MORL), where objectives can differ sharply in temporal frequency. Such heterogeneity allows dense objectives to dominate learning, while sparse long-horizon rewards receive weak credit assignment, leading to poor sample efficiency. We propose a Parallel Reward Integration with Symmetry (PRISM) algorithm that enforces reflectional symmetry as an inductive bias in aligning reward channels. PRISM introduces ReSymNet, a theory-motivated model that reconciles temporal-frequency mismatches across objectives, using residual blocks to learn a scaled opportunity value that accelerates exploration while preserving the optimal policy. We also propose SymReg, a reflectional equivariance regulariser that enforces agent mirroring and constrains policy search to a reflection-equivariant subspace. This restriction provably reduces hypothesis complexity and improves generalisation. Across MuJoCo benchmarks, PRISM consistently outperforms both a sparse-reward baseline and an oracle trained with full dense rewards, improving Pareto coverage and distributional balance: it achieves hypervolume gains exceeding 100\% over the baseline and up to 32\% over the oracle. The code is at \href{https://github.com/EVIEHub/PRISM}{https://github.com/EVIEHub/PRISM}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.