2602.01664v1 Feb 02, 2026 cs.AI

FlowSteer: 종단간 강화학습을 통한 대화형 에이전트 워크플로 오케스트레이션

FlowSteer: Interactive Agentic Workflow Orchestration via End-to-End Reinforcement Learning

Tiesunlong Shen
Tiesunlong Shen
Citations: 60
h-index: 5
Erik Cambria
Erik Cambria
Citations: 29
h-index: 3
Haoran Luo
Haoran Luo
Citations: 27
h-index: 3
Rui Mao
Rui Mao
Citations: 75
h-index: 2
Mingda Zhang
Mingda Zhang
Citations: 2,107
h-index: 3
Qika Lin
Qika Lin
Citations: 231
h-index: 7
Xiaoying Tang
Xiaoying Tang
Citations: 36
h-index: 3

최근 몇 년간 다양한 강력한 에이전트 워크플로가 광범위한 인간의 문제를 해결하는 데 적용되었습니다. 그러나 기존의 워크플로 오케스트레이션은 여전히 높은 수작업 비용, 특정 연산자 및 거대언어모델(LLM)에 대한 의존성, 희소한 보상 신호 등의 주요 과제에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 경량 정책 모델을 에이전트로 하고 실행 가능한 캔버스 환경을 활용하여 멀티 턴 상호작용을 통해 워크플로 오케스트레이션을 자동화하는 종단간 강화학습 프레임워크인 FlowSteer를 제안합니다. 이 과정에서 정책 모델은 실행 상태를 분석하여 편집 작업을 선택하며, 캔버스는 연산자를 실행하고 반복적인 개선을 위한 피드백을 반환합니다. 또한 FlowSteer는 다양한 연산자 라이브러리와 교체 가능한 LLM 백엔드를 지원하는 플러그 앤 플레이 프레임워크를 제공합니다. 이러한 상호작용 패러다임을 효과적으로 훈련하기 위해, 우리는 학습을 안정화하고 지름길 행동(shortcut behaviors)을 억제하도록 조건부 해제와 함께 다양성 제약 보상을 도입한 Canvas Workflow Relative Policy Optimization(CWRPO)을 제안합니다. 12개 데이터셋에 대한 실험 결과, FlowSteer가 다양한 작업에서 기준 모델(baselines)보다 월등히 우수한 성능을 보임을 확인했습니다.

Original Abstract

In recent years, a variety of powerful agentic workflows have been applied to solve a wide range of human problems. However, existing workflow orchestration still faces key challenges, including high manual cost, reliance on specific operators/large language models (LLMs), and sparse reward signals. To address these challenges, we propose FlowSteer, an end-to-end reinforcement learning framework that takes a lightweight policy model as the agent and an executable canvas environment, automating workflow orchestration through multi-turn interaction. In this process, the policy model analyzes execution states and selects editing actions, while the canvas executes operators and returns feedback for iterative refinement. Moreover, FlowSteer provides a plug-and-play framework that supports diverse operator libraries and interchangeable LLM backends. To effectively train this interaction paradigm, we propose Canvas Workflow Relative Policy Optimization (CWRPO), which introduces diversity-constrained rewards with conditional release to stabilize learning and suppress shortcut behaviors. Experimental results on twelve datasets show that FlowSteer significantly outperforms baselines across various tasks.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!