2603.12011v1 Mar 12, 2026 cs.AI

강화 학습이 LLM 에이전트의 일반화 성능을 향상시킬 수 있는가? 실증적 연구

Can RL Improve Generalization of LLM Agents? An Empirical Study

Kevin I-Kai Wang
Kevin I-Kai Wang
Citations: 0
h-index: 0
Xuanjing Huang
Xuanjing Huang
Citations: 2,818
h-index: 28
Zhiheng Xi
Zhiheng Xi
Citations: 957
h-index: 14
Zhihao Zhang
Zhihao Zhang
Citations: 239
h-index: 6
Tao Gui
Tao Gui
Citations: 286
h-index: 4
Shichun Liu
Shichun Liu
Citations: 714
h-index: 7
Jiazheng Zhang
Jiazheng Zhang
Citations: 66
h-index: 4
Yutao Fan
Yutao Fan
Citations: 6
h-index: 2
Mingxu Chai
Mingxu Chai
Citations: 179
h-index: 5
Yitao Zhai
Yitao Zhai
Citations: 105
h-index: 4
Qi Zhang
Qi Zhang
Citations: 65
h-index: 2
Xin Guo
Xin Guo
Citations: 1,890
h-index: 6
Jiaqi Liu
Jiaqi Liu
Citations: 53
h-index: 2
Xiaowei Shi
Xiaowei Shi
Citations: 74
h-index: 3

강화 학습 기반 미세 조정(RFT)은 LLM 에이전트가 환경 피드백을 기반으로 다중 단계 의사 결정을 수행하도록 훈련하는 데 유망한 결과를 보여왔습니다. 그러나 대부분의 기존 평가는 여전히 동일한 영역 내에서 이루어지며, 훈련과 테스트가 동일한 환경 또는 동일한 작업에서 수행됩니다. 실제 환경에서 에이전트는 다양한 배경 지식, 관측 공간 및 액션 인터페이스를 가진 새로운 환경에서 작동할 수 있습니다. 이러한 변화 하에서 RFT의 일반화 특성을 파악하기 위해, 우리는 세 가지 측면에서 체계적인 연구를 수행했습니다. (1) 동일 환경 내에서의 작업 난이도에 따른 일반화, (2) 새로운 환경으로의 교차 환경 전이, (3) 전이 및 망각을 정량화하기 위한 순차적 다중 환경 훈련. 우리의 결과는 RFT가 동일 환경 내에서 작업 난이도에 따라 잘 일반화되지만, 새로운 환경으로의 전이는 약하며, 이는 의미론적 사전 지식과 관측/액션 인터페이스의 변화와 관련이 있음을 보여줍니다. 반면에, 순차적 훈련은 최소한의 이전 학습 내용 망각으로 상당한 후속 성능 향상을 가져오며, 다양한 환경에서의 혼합 훈련은 전반적인 균형을 개선합니다. 또한, 우리는 자세한 분석과 심층적인 통찰력을 제공하며, 우리의 연구가 커뮤니티가 일반화된 LLM 에이전트를 개발하고 배포하는 데 도움이 되기를 바랍니다.

Original Abstract

Reinforcement fine-tuning (RFT) has shown promise for training LLM agents to perform multi-turn decision-making based on environment feedback. However, most existing evaluations remain largely in-domain: training and testing are conducted in the same environment or even on the same tasks. In real-world deployment, agents may operate in unseen environments with different background knowledge, observation spaces, and action interfaces. To characterize the generalization profile of RFT under such shifts, we conduct a systematic study along three axes: (1) within-environment generalization across task difficulty, (2) cross-environment transfer to unseen environments, and (3) sequential multi-environment training to quantify transfer and forgetting. Our results show that RFT generalizes well across task difficulty within an environment, but exhibits weaker transfer to unseen environments, which correlates with shifts in both semantic priors and observation/action interfaces. In contrast, sequential training yields promising downstream gains with minimal upstream forgetting, and mixture training across environments improves the overall balance. We further provide detailed analyses and deeper insights, and hope our work helps the community develop and deploy generalizable LLM agents.

0 Citations
0 Influential
14 Altmetric
70.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!