2601.22823v1 Jan 30, 2026 cs.LG

강건한 스타일 정렬 하에서의 고품질 행동을 위한 오프라인 강화 학습

Offline Reinforcement Learning of High-Quality Behaviors Under Robust Style Alignment

Sylvain Lamprier
Sylvain Lamprier
Citations: 25
h-index: 4
Mathieu Petitbois
Mathieu Petitbois
Citations: 5
h-index: 2
Rémy Portelas
Rémy Portelas
Citations: 17
h-index: 2

본 연구에서는 부분 경로 레이블링 함수를 통한 명시적인 스타일 감독을 사용하여, 스타일 조건 정책의 오프라인 강화 학습을 다룹니다. 이 설정에서 스타일을 높은 작업 성능과 일치시키는 것은 분포 변화와 스타일과 보상의 고유한 충돌로 인해 특히 어렵습니다. 기존 방법들은 다양한 스타일 정의를 도입했지만, 종종 이러한 목표들을 효과적으로 조화시키지 못합니다. 이러한 문제점을 해결하기 위해, 우리는 행동 스타일의 통일된 정의를 제안하고 이를 실용적인 프레임워크로 구현합니다. 이를 바탕으로, 우리는 스타일 조건 임플리시트 Q-러닝 (SCIQL)을 제안합니다. SCIQL은 백싱트 리레이블링 및 가치 학습과 같은 오프라인 목표 조건 강화 학습 기술을 활용하고, 새로운 게이티드 어드밴티지 가중 회귀 메커니즘을 결합하여 작업 성능을 효율적으로 최적화하면서 스타일 정렬을 유지합니다. 실험 결과는 SCIQL이 기존의 오프라인 방법들에 비해 두 가지 목표 모두에서 우수한 성능을 달성함을 보여줍니다. 코드, 데이터셋 및 시각 자료는 다음 웹사이트에서 확인할 수 있습니다: https://sciql-iclr-2026.github.io/.

Original Abstract

We study offline reinforcement learning of style-conditioned policies using explicit style supervision via subtrajectory labeling functions. In this setting, aligning style with high task performance is particularly challenging due to distribution shift and inherent conflicts between style and reward. Existing methods, despite introducing numerous definitions of style, often fail to reconcile these objectives effectively. To address these challenges, we propose a unified definition of behavior style and instantiate it into a practical framework. Building on this, we introduce Style-Conditioned Implicit Q-Learning (SCIQL), which leverages offline goal-conditioned RL techniques, such as hindsight relabeling and value learning, and combine it with a new Gated Advantage Weighted Regression mechanism to efficiently optimize task performance while preserving style alignment. Experiments demonstrate that SCIQL achieves superior performance on both objectives compared to prior offline methods. Code, datasets and visuals are available in: https://sciql-iclr-2026.github.io/.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!