2601.18217v1 Jan 26, 2026 cs.AI

일반화 비용 줄이기: LLM 에이전트의 강화 학습 훈련에 대한 교차 도메인 일반화 연구

Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

Zhihan Liu
Zhihan Liu
Citations: 380
h-index: 11
Asli Celikyilmaz
Asli Celikyilmaz
Citations: 401
h-index: 9
Zhaoran Wang
Zhaoran Wang
Citations: 74
h-index: 5
L. Guan
L. Guan
Citations: 1,052
h-index: 11
Yixin Nie
Yixin Nie
Citations: 179
h-index: 4
Kai Zhang
Kai Zhang
Citations: 425
h-index: 4
Zhuoqun Hao
Zhuoqun Hao
Citations: 169
h-index: 4
Lin Chen
Lin Chen
Citations: 252
h-index: 4
Natalia Zhang
Natalia Zhang
Citations: 11
h-index: 1

범용 LLM 에이전트는 종종 좁은 범위의 환경에서 사후 훈련(post-trained)되지만, 실제로는 훨씬 더 광범위하고 본 적 없는 도메인에 배포됩니다. 본 연구에서는 최종 테스트 도메인을 알 수 없는 상황에서의 에이전트 사후 훈련 과제를 조사합니다. 구체적으로, 강화 학습(RL) 환경의 어떤 속성과 모델링 선택이 도메인 외부(out-of-domain) 성능에 가장 큰 영향을 미치는지 분석합니다. 첫째, 교차 도메인 일반화와 강한 상관관계가 있는 두 가지 환경 축을 식별합니다. (i) 상태 정보 풍부성(state information richness), 즉 에이전트가 상태로부터 처리해야 할 정보의 양, 그리고 (ii) 기본 정책 하에서의 목표 도달 가능성과 궤적 길이를 통해 추정된 계획 복잡성(planning complexity)입니다. 주목할 점은 도메인 현실성과 텍스트 수준의 유사성이 주된 요인이 아니라는 것입니다. 예를 들어, 단순한 격자 세계 도메인인 소코반(Sokoban)은 더 현실적인 ALFWorld보다 SciWorld에서 더 강력한 일반화 성능을 이끌어냅니다. 이러한 발견에 기반하여, 우리는 상태 정보 풍부성을 높이는 것만으로도 교차 도메인 견고성을 효과적으로 향상시킬 수 있음을 추가로 보여줍니다. 우리는 오버헤드가 적고 광범위하게 적용 가능한 무작위화 기법을 제안합니다. 이는 과제를 변경하지 않으면서 상태를 더 풍부하게 만들기 위해 소량의 목표와 무관한 방해 요소(distractive features)를 상태에 추가하는 것입니다. 환경 측면의 속성 외에도 몇 가지 모델링 선택을 조사합니다. (a) SFT 웜업 또는 중간 훈련(mid-training)은 RL 중 파멸적 망각(catastrophic forgetting)을 방지하는 데 도움이 되지만, 중간 훈련 데이터 혼합에 포함되지 않은 도메인에 대한 일반화를 저해하며, (b) RL 중에 단계별 사고(step-by-step thinking)를 활성화하는 것은 도메인 내부 성능을 항상 향상시키는 것은 아니지만 일반화를 보존하는 데 중요한 역할을 합니다.

Original Abstract

Generalist LLM agents are often post-trained on a narrow set of environments but deployed across far broader, unseen domains. In this work, we investigate the challenge of agentic post-training when the eventual test domains are unknown. Specifically, we analyze which properties of reinforcement learning (RL) environments and modeling choices have the greatest influence on out-of-domain performance. First, we identify two environment axes that strongly correlate with cross-domain generalization: (i) state information richness, i.e., the amount of information for the agent to process from the state, and (ii) planning complexity, estimated via goal reachability and trajectory length under a base policy. Notably, domain realism and text-level similarity are not the primary factors; for instance, the simple grid-world domain Sokoban leads to even stronger generalization in SciWorld than the more realistic ALFWorld. Motivated by these findings, we further show that increasing state information richness alone can already effectively improve cross-domain robustness. We propose a randomization technique, which is low-overhead and broadly applicable: add small amounts of distractive goal-irrelevant features to the state to make it richer without altering the task. Beyond environment-side properties, we also examine several modeling choices: (a) SFT warmup or mid-training helps prevent catastrophic forgetting during RL but undermines generalization to domains that are not included in the mid-training datamix; and (b) turning on step-by-step thinking during RL, while not always improving in-domain performance, plays a crucial role in preserving generalization.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!