ProcMEM: LLM 에이전트를 위한 비모수적 PPO 기반 경험을 통한 재사용 가능한 절차적 기억 학습
ProcMEM: Learning Reusable Procedural Memory from Experience via Non-Parametric PPO for LLM Agents
LLM 기반 에이전트들은 순차적 의사결정에서 강력한 성능을 보이지만, 종종 즉석 추론에 의존하여 반복되는 시나리오에서도 해결책을 다시 도출하곤 한다. 이러한 불충분한 경험 재사용은 계산적 중복과 실행 불안정성을 초래한다. 이러한 문제를 해결하기 위해, 우리는 에이전트가 파라미터 업데이트 없이 상호작용 경험으로부터 절차적 기억을 자율적으로 학습할 수 있게 하는 프레임워크인 ProcMEM을 제안한다. Skill-MDP를 정형화함으로써, ProcMEM은 수동적인 에피소드 서사를 실행 가능성을 보장하기 위해 활성화, 실행, 종료 조건으로 정의된 실행 가능한 '스킬(Skills)'로 변환한다. 성능 저하 없이 신뢰할 수 있는 재사용성을 달성하기 위해, 우리는 고품질 후보 생성을 위한 의미론적 그라디언트(semantic gradients)와 견고한 스킬 검증을 위한 PPO 게이트(PPO Gate)를 활용하는 비모수적 PPO(Non-Parametric PPO)를 도입한다. 점수 기반 유지 관리를 통해, ProcMEM은 간결하고 고품질의 절차적 기억을 유지한다. 도메인 내, 교차 태스크, 교차 에이전트 시나리오 전반에 걸친 실험 결과는 ProcMEM이 극도로 압축된 메모리로 우수한 재사용률과 상당한 성능 향상을 달성함을 입증한다. 시각화된 진화 궤적과 스킬 분포는 ProcMEM이 장기적 자율성을 촉진하기 위해 어떻게 절차적 지식을 투명하게 축적, 정제 및 재사용하는지를 추가로 보여준다.
LLM-driven agents demonstrate strong performance in sequential decision-making but often rely on on-the-fly reasoning, re-deriving solutions even in recurring scenarios. This insufficient experience reuse leads to computational redundancy and execution instability. To bridge this gap, we propose ProcMEM, a framework that enables agents to autonomously learn procedural memory from interaction experiences without parameter updates. By formalizing a Skill-MDP, ProcMEM transforms passive episodic narratives into executable Skills defined by activation, execution, and termination conditions to ensure executability. To achieve reliable reusability without capability degradation, we introduce Non-Parametric PPO, which leverages semantic gradients for high-quality candidate generation and a PPO Gate for robust Skill verification. Through score-based maintenance, ProcMEM sustains compact, high-quality procedural memory. Experimental results across in-domain, cross-task, and cross-agent scenarios demonstrate that ProcMEM achieves superior reuse rates and significant performance gains with extreme memory compression. Visualized evolutionary trajectories and Skill distributions further reveal how ProcMEM transparently accumulates, refines, and reuses procedural knowledge to facilitate long-term autonomy.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.