TAME: 체계적인 벤치마킹을 통한 에이전트 메모리의 신뢰할 수 있는 테스트 타임 진화
TAME: A Trustworthy Test-Time Evolution of Agent Memory with Systematic Benchmarking
에이전트 메모리의 테스트 타임 진화(Test-time evolution)는 경험 축적을 통해 복잡한 추론 능력을 강화함으로써 AGI를 달성하기 위한 핵심적인 패러다임이다. 그러나 정상적인 작업 진화 과정에서도 에이전트의 안전 정렬(safety alignment)은 여전히 취약하며, 이는 '에이전트 메모리 오진화(Agent Memory Misevolution)'라고 알려진 현상이다. 이 현상을 평가하기 위해 우리는 Trust-Memevo 벤치마크를 구축하여 정상적인 작업 진화 과정에서의 다차원적인 신뢰성을 평가하였고, 다양한 작업 도메인과 평가 설정 전반에 걸쳐 신뢰성이 전반적으로 하락함을 밝혀냈다. 이 문제를 해결하기 위해 우리는 이중 메모리 진화 프레임워크인 TAME을 제안한다. TAME은 일반화 가능한 방법론을 추출하여 작업 성능을 향상시키는 실행자(executor) 메모리와, 과거 피드백을 기반으로 안전성 및 작업 유용성 평가를 개선하는 평가자(evaluator) 메모리를 분리하여 진화시킨다. 메모리 필터링, 초안 생성, 신뢰성 정제, 실행, 그리고 이중 트랙 메모리 업데이트의 폐루프를 통해 TAME은 유용성을 희생하지 않으면서 신뢰성을 보존한다. 실험 결과, TAME은 오진화 현상을 완화하며 신뢰성과 작업 성능을 동시에 향상시키는 것으로 나타났다.
Test-time evolution of agent memory serves as a pivotal paradigm for achieving AGI by bolstering complex reasoning through experience accumulation. However, even during benign task evolution, agent safety alignment remains vulnerable-a phenomenon known as Agent Memory Misevolution. To evaluate this phenomenon, we construct the Trust-Memevo benchmark to assess multi-dimensional trustworthiness during benign task evolution, revealing an overall decline in trustworthiness across various task domains and evaluation settings. To address this issue, we propose TAME, a dual-memory evolutionary framework that separately evolves executor memory to improve task performance by distilling generalizable methodologies, and evaluator memory to refine assessments of both safety and task utility based on historical feedback. Through a closed loop of memory filtering, draft generation, trustworthy refinement, execution, and dual-track memory updating, TAME preserves trustworthiness without sacrificing utility. Experiments demonstrate that TAME mitigates misevolution, achieving a joint improvement in both trustworthiness and task performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.