TRACE: 능력 기반 에이전트 학습
TRACE: Capability-Targeted Agentic Training
에이전트 환경에 배포되는 거대 언어 모델(LLM)은 다양한 작업에서 여러 가지 능력을 활용해야 하며, 여기서 능력은 환경 내 특정 작업 집합을 성공적으로 해결하는 데 필요한 일련의 행동을 의미합니다. 많은 기존 방법들은 모델의 실제 능력 부족을 정확히 반영하지 못하는 합성 학습 데이터를 사용하거나, 모델이 여러 작업에 걸쳐 능력을 암묵적으로 학습해야 하는 대상 환경에서 직접 학습하는 방식을 채택합니다. 본 연구에서는 TRACE(Turning Recurrent Agent failures into Capability-targeted training Environments)라는, 환경별 에이전트의 자체 개선을 위한 통합 시스템을 소개합니다. TRACE는 성공적인 경로와 실패한 경로를 비교하여 부족한 능력을 자동으로 식별하고, 각 능력의 활용 여부를 보상하는 맞춤형 학습 환경을 합성합니다. 또한, 강화 학습(RL)을 통해 합성된 각 환경에서 LoRA 어댑터를 학습하고, 추론 시 해당 어댑터로 연결합니다. 실험 결과, TRACE는 다양한 환경에서 일반화 성능을 보이며, $τ^2$-벤치(고객 서비스)에서 기본 에이전트 대비 14.1점이, ToolSandbox(도구 사용)에서 7개의 완벽 점수가 향상되었습니다. 또한, TRACE는 가장 강력한 기준 모델보다 각각 7.4점과 4개의 완벽 점수가 높았습니다. 동일한 수의 학습 반복 횟수에서 TRACE는 GRPO 및 GEPA와 같은 기준 모델보다 효율적으로 확장되며, $τ^2$-벤치에서 각각 9.2점과 7.4점이 더 높은 성능을 보였습니다.
Large Language Models (LLMs) deployed in agentic environments must exercise multiple capabilities across different task instances, where a capability is performing one or more actions in a trajectory that are necessary for successfully solving a subset of tasks in the environment. Many existing approaches either rely on synthetic training data that is not targeted to the model's actual capability deficits in the target environment or train directly on the target environment, where the model needs to implicitly learn the capabilities across tasks. We introduce TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments), an end-to-end system for environment-specific agent self-improvement. TRACE contrasts successful and failed trajectories to automatically identify lacking capabilities, synthesizes a targeted training environment for each that rewards whether the capability was exercised, and trains a LoRA adapter via RL on each synthetic environment, routing to the relevant adapter at inference. Empirically, TRACE generalizes across different environments, improving over the base agent by +14.1 points on $τ^2$-bench (customer service) and +7 perfect scores on ToolSandbox (tool use), outperforming the strongest baseline by +7.4 points and +4 perfect scores, respectively. Given the same number of rollouts, TRACE scales more efficiently than baselines, outperforming GRPO and GEPA by +9.2 and +7.4 points on $τ^2$-bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.