AutoTool: 강화 학습에서 분리된 엔트로피 제약을 통한 도구 사용 능력의 자동 확장
AutoTool: Automatic Scaling of Tool-Use Capabilities in RL via Decoupled Entropy Constraints
도구 사용은 인공지능 에이전트에게 중요한 능력이며, 최근 연구에서는 강화 학습(RL)을 활용하여 명시적인 추론 과정을 확장하여 성능을 향상시키는 데 집중하고 있습니다. 그러나 현재 RL 기반 확장 방식에서 도구 사용에는 몇 가지 중요한 과제가 존재합니다. (a) 직접적인 RL 훈련은 종종 복잡한 문제를 해결하기에 충분한 추론 길이를 확장하는 데 어려움을 겪고, (b) 확장된 모델은 단순한 문제에 대해 지나치게 복잡한 추론을 수행하여 상당한 토큰 비효율성을 초래합니다. 이러한 문제점을 해결하기 위해, 우리는 먼저 모델이 단순하고 복잡한 문제를 구별하도록 돕는 사전 학습된 지도 학습을 활용하고, 그 후 모델이 적절한 추론 경로를 자동으로 결정하도록 하는 RL을 적용하는 새로운 학습 패러다임을 제안합니다. 또한, 자동적인 추론 길이 확장의 문제를 해결하기 위해, 엔트로피 기반 최적화 목표가 모델의 다양성을 유지하면서 모델의 확장 능력을 성공적으로 활용한다는 것을 발견했습니다. 이러한 통찰력을 바탕으로, 우리는 엔트로피 기반의 장단기 추론 융합 RL 전략을 도입했습니다. 세 가지 벤치마크에 대한 실험 결과, 모델이 효율적인 도구 사용을 위한 자동 확장을 성공적으로 달성하며, 9.8%의 상당한 정확도 향상을 이루는 동시에 계산 오버헤드를 약 81% 줄이는 것을 확인했습니다.
Tool use represents a critical capability for AI agents, with recent advances focusing on leveraging reinforcement learning (RL) to scale up the explicit reasoning process to achieve better performance. However, there are some key challenges for tool use in current RL-based scaling approaches: (a) direct RL training often struggles to scale up thinking length sufficiently to solve complex problems, and (b) scaled-up models tend to overthink simpler problems, resulting in substantial token inefficiency. To address these challenges, we propose a novel training paradigm that first employs warm-up supervised fine-tuning to help models distinguish between simple and complex problems, followed by RL that enable models to automatically determine appropriate reasoning trajectories. Furthermore, to tackle the issue of automatic thinking-length scaling, we discover that entropy-based optimization objectives effectively maintain model diversity while successfully unlocking the model's scaling capabilities. Based on this insight, we introduce an entropy-based long-short reasoning fusion RL strategy. Our experiments on three benchmarks demonstrate that model successfully achieves auto-scaling for efficient tool use, achieving significant 9.8\% accuracy improvements while reducing computational overhead by \textasciitilde81\%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.