2602.23876v1 Feb 27, 2026 cs.AI

RF-Agent: 언어 에이전트 트리 탐색을 통한 자동화된 보상 함수 설계

RF-Agent: Automated Reward Function Design via Language Agent Tree Search

Zhuoran Li
Zhuoran Li
Citations: 0
h-index: 0
Ninghang Gao
Ninghang Gao
Citations: 1
h-index: 1
Xiuhui Zhang
Xiuhui Zhang
Citations: 111
h-index: 3
Xingyu Jiang
Xingyu Jiang
Citations: 181
h-index: 5
Mukang You
Mukang You
Citations: 1
h-index: 1
Yue Deng
Yue Deng
Citations: 5
h-index: 2

저수준 제어 작업에 대한 효율적인 보상 함수를 설계하는 것은 어려운 문제입니다. 최근 연구에서는 대규모 언어 모델(LLM)을 사용하여 작업 정보를 기반으로 밀집된 보상 함수를 생성하여 전문가의 경험에 대한 의존성을 줄이려고 합니다. 이러한 방법은 일반적으로 훈련 결과를 피드백으로 활용하여 탐욕적 또는 진화적 알고리즘을 통해 새로운 보상 함수를 반복적으로 생성합니다. 그러나 이러한 방법은 과거 피드백을 제대로 활용하지 못하고 비효율적인 탐색을 수행하여 복잡한 제어 작업에서 개선 효과가 제한적입니다. 이러한 문제를 해결하기 위해, 우리는 LLM을 언어 에이전트로 간주하고 보상 함수 설계를 순차적 의사 결정 프로세스로 프레임화하여 문맥적 추론 능력을 향상시켜 최적화를 개선하는 프레임워크인 RF-Agent를 제안합니다. RF-Agent는 몬테카를로 트리 탐색(MCTS)을 통합하여 보상 설계 및 최적화 프로세스를 관리하며, LLM의 다단계 문맥적 추론 능력을 활용합니다. 이러한 접근 방식은 과거 정보를 보다 효과적으로 활용하고 탐색 효율성을 향상시켜 유망한 보상 함수를 식별합니다. 17가지 다양한 저수준 제어 작업에 대한 뛰어난 실험 결과는 우리 방법의 효과를 입증합니다. 소스 코드는 https://github.com/deng-ai-lab/RF-Agent 에서 확인할 수 있습니다.

Original Abstract

Designing efficient reward functions for low-level control tasks is a challenging problem. Recent research aims to reduce reliance on expert experience by using Large Language Models (LLMs) with task information to generate dense reward functions. These methods typically rely on training results as feedback, iteratively generating new reward functions with greedy or evolutionary algorithms. However, they suffer from poor utilization of historical feedback and inefficient search, resulting in limited improvements in complex control tasks. To address this challenge, we propose RF-Agent, a framework that treats LLMs as language agents and frames reward function design as a sequential decision-making process, enhancing optimization through better contextual reasoning. RF-Agent integrates Monte Carlo Tree Search (MCTS) to manage the reward design and optimization process, leveraging the multi-stage contextual reasoning ability of LLMs. This approach better utilizes historical information and improves search efficiency to identify promising reward functions. Outstanding experimental results in 17 diverse low-level control tasks demonstrate the effectiveness of our method. The source code is available at https://github.com/deng-ai-lab/RF-Agent.

1 Citations
0 Influential
30.547189562171 Altmetric
153.7 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!