ToolSelf: 도구 기반의 내재적 적응을 통한 작업 실행 및 자기 재구성을 통합하는 방법
ToolSelf: Unifying Task Execution and Self-Reconfiguration via Tool-Driven Intrinsic Adaptation
대규모 언어 모델(LLM)에 의해 구동되는 에이전트 시스템은 복잡하고 장기적인 작업을 해결하는 데 놀라운 잠재력을 보여주었습니다. 그러나 이러한 시스템의 효율성은 에이전트의 행동을 제어하는 정적인 구성에 의해 근본적으로 제한되며, 이러한 구성은 실행 전에 고정되어 변화하는 작업 동역에 적응하지 못합니다. 기존의 수동 오케스트레이션 또는 휴리스틱 기반 패치를 사용하는 방법은 종종 일반화 성능이 낮고 최적화가 단편적으로 이루어지는 문제를 겪습니다. 이러한 한계를 극복하기 위해, 우리는 도구 기반의 실시간 자기 재구성을 가능하게 하는 새로운 패러다임인 ToolSelf를 제안합니다. ToolSelf는 구성 업데이트를 호출 가능한 도구로 추상화함으로써, 작업 실행과 자기 조정 기능을 단일 행동 공간으로 통합하고, 외부 규칙에서 내부 매개변수로의 전환을 이끌어냅니다. 에이전트는 작업 진행 상황에 따라 자신의 하위 목표와 컨텍스트를 자율적으로 업데이트하고, 이에 따라 전략과 도구 상자를 적응시켜, 수동 실행자에서 작업과 자기 자신 모두를 관리하는 이중 관리자로 변모합니다. 또한, 우리는 이 메타-능력을 내재화하기 위해, 거부 샘플링 미세 조정과 경로 수준 강화 학습을 결합한 Configuration-Aware Two-stage Training (CAT) 방법을 개발했습니다. 다양한 벤치마크를 대상으로 실시한 광범위한 실험 결과, ToolSelf는 특수화된 워크플로우와 경쟁하며, 새로운 작업에 대한 일반화 성능을 보여주어 평균 24.1%의 성능 향상을 달성했으며, 진정으로 자기 적응적인 에이전트로 나아가는 길을 제시합니다.
Agentic systems powered by Large Language Models (LLMs) have demonstrated remarkable potential in tackling complex, long-horizon tasks. However, their efficacy is fundamentally constrained by static configurations governing agent behaviors, which are fixed prior to execution and fail to adapt to evolving task dynamics. Existing approaches, relying on manual orchestration or heuristic-based patches, often struggle with poor generalization and fragmented optimization. To transcend these limitations, we propose ToolSelf, a novel paradigm enabling tool-driven runtime self-reconfiguration. By abstracting configuration updates as a callable tool, ToolSelf unifies task execution and self-adjustment into a single action space, achieving a phase transition from external rules to intrinsic parameters. Agents can thereby autonomously update their sub-goals and context based on task progression, and correspondingly adapt their strategy and toolbox, transforming from passive executors into dual managers of both task and self. We further devise Configuration-Aware Two-stage Training (CAT), combining rejection sampling fine-tuning with trajectory-level reinforcement learning to internalize this meta-capability. Extensive experiments across diverse benchmarks demonstrate that ToolSelf rivals specialized workflows while generalizing to novel tasks, achieving a 24.1% average performance gain and illuminating a path toward truly self-adaptive agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.