에이전트 강화학습에서의 추론과 도구 사용 간의 경쟁: 간섭 정량화부터 분리된 튜닝까지
Reasoning and Tool-use Compete in Agentic RL:From Quantifying Interference to Disentangled Tuning
에이전트 강화학습(ARL)은 대규모 언어 모델(LLM)이 복잡한 작업을 해결하기 위해 추론과 외부 도구 실행을 번갈아 수행하도록 훈련하는 데 중점을 둡니다. 대부분의 기존 ARL 방법은 추론과 도구 사용 행동을 모두 지원하기 위해 단일 공유 모델 파라미터를 훈련시키며, 이는 공동 훈련이 전반적인 에이전트 성능 향상으로 이어진다는 것을 암묵적으로 가정합니다. 이러한 방식이 널리 채택되었음에도 불구하고, 이 가정은 경험적으로 거의 검증되지 않았습니다. 본 논문에서는 추론과 도구 사용 행동 간의 간섭에 대한 정량적 증거를 제공하는 선형 효과 귀인 시스템(LEAS)을 도입하여 이 가정을 체계적으로 조사합니다. 심층 분석을 통해, 우리는 이 두 가지 능력이 종종 불일치하는 그래디언트 방향을 유도하여 공동 최적화의 효율성을 저해하는 훈련 간섭을 초래하고, 지배적인 ARL 패러다임에 도전한다는 것을 보여줍니다. 이 문제를 해결하기 위해, 우리는 별도의 저랭크 적응(LoRA) 모듈을 통해 추론과 도구 사용에 대한 파라미터 업데이트를 명시적으로 분리하는 간단하고 효율적인 프레임워크인 분리된 행동 추론 튜닝(DART)을 제안합니다. 실험 결과에 따르면 DART는 기준 방법보다 평균 6.35% 향상된 성능을 일관되게 보여주며, 단일 모델을 사용하여 도구 사용과 추론을 명시적으로 분리하는 멀티 에이전트 시스템과 유사한 성능을 달성했습니다.
Agentic Reinforcement Learning (ARL) focuses on training large language models (LLMs) to interleave reasoning with external tool execution to solve complex tasks. Most existing ARL methods train a single shared model parameters to support both reasoning and tool use behaviors, implicitly assuming that joint training leads to improved overall agent performance. Despite its widespread adoption, this assumption has rarely been examined empirically. In this paper, we systematically investigate this assumption by introducing a Linear Effect Attribution System(LEAS), which provides quantitative evidence of interference between reasoning and tool-use behaviors. Through an in-depth analysis, we show that these two capabilities often induce misaligned gradient directions, leading to training interference that undermines the effectiveness of joint optimization and challenges the prevailing ARL paradigm. To address this issue, we propose Disentangled Action Reasoning Tuning(DART), a simple and efficient framework that explicitly decouples parameter updates for reasoning and tool-use via separate low-rank adaptation modules. Experimental results show that DART consistently outperforms baseline methods with averaged 6.35 percent improvements and achieves performance comparable to multi-agent systems that explicitly separate tool-use and reasoning using a single model.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.