테스트 시간 학습: 학습 가능한 적응 정책을 갖춘 언어 에이전트
Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies
테스트 시간 학습(TTL)은 언어 에이전트가 추론 시간에 환경과의 반복적인 상호 작용을 통해 성능을 점진적으로 개선할 수 있도록 합니다. TTL의 핵심은 이전 에피소드에서 얻은 경험을 바탕으로 액터 정책을 업데이트하는 적응 정책입니다. 기존 방법은 고정된, 사람이 직접 설계한 적응 정책에 의존하는 반면, 우리는 이러한 정책을 다운스트림 성능 향상을 위해 최적화해야 한다고 주장합니다. 이를 위해, 우리는 최적의 적응 정책이 작업 환경으로부터 학습되어야 하며, 인간의 직관에 기반하여 설계되어서는 안 된다는 점을 강조합니다. 이를 달성하기 위해, 우리는 효과적인 적응 정책을 발견하는 것을 이중 최적화 문제로 정의하는 프레임워크인 Meta-TTL을 소개합니다. 이 프레임워크 내에서, 내부 루프는 표준 TTL 프로세스를 실행하며, 후보 적응 정책이 에이전트가 연속적인 에피소드에서 오류를 수정하는 데 얼마나 효과적인지 측정합니다. 에이전트의 성능에 따라, 외부 루프는 다양한 학습 작업 분포에 대한 진화적 탐색을 활용하여 적응 정책을 반복적으로 개선합니다. 우리는 Meta-TTL을 다양한 메타-에이전트 백본을 사용하여 Jericho 및 WebArena-Lite에서, 또한 동일 분포(ID) 및 이질 분포(OOD) 환경에서 평가했습니다. 두 벤치마크 모두에서 Meta-TTL은 사람이 설계한 기준 모델보다 일관되게 우수한 성능을 보였으며, 이는 최적화된 적응 정책이 학습 작업 분포를 넘어 일반화될 수 있는 전이 가능한 전략을 포함하고 있음을 시사합니다.
Test-Time Learning (TTL) enables language agents to iteratively refine their performance through repeated interactions with the environment at inference time. At the core of TTL is an adaptation policy that updates the actor policy based on experience from previous episodes, thereby improving future behavior. Existing methods rely on fixed, hand-crafted adaptation policies rather than optimizing them for downstream improvement. We argue that optimal adaptation policies should be learned from task environments, not hand-engineered based on human intuition. To achieve this, we introduce Meta-TTL, a framework that formulates the discovery of effective adaptation policies as a bi-level optimization problem. Within this framework, the inner loop executes the standard TTL process, measuring how effectively a candidate adaptation policy helps an agent correct errors across sequential episodes. Guided by the agent's performance, the outer loop employs evolutionary search over a diverse distribution of training tasks to iteratively refine the adaptation policy. We evaluate Meta-TTL on Jericho and WebArena-Lite across both in-distribution (ID) and out-of-distribution (OOD) settings, using multiple meta-agent backbones. Results on both benchmarks show that Meta-TTL consistently outperforms hand-crafted baselines, suggesting that the optimized adaptation policy encodes transferable strategies that generalize beyond the training task distribution.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.