신념 메모리: 부분 관찰 환경에서의 에이전트 메모리
Belief Memory: Agent Memory Under Partial Observability
장기간의 컨텍스트를 활용하는 LLM 에이전트는 시간이 지남에 따라 지식을 축적하기 위해 외부 메모리에 의존합니다. 그러나 기존 방법은 일반적으로 각 관찰을 단일하고 결정적인 결론으로 저장하는 경향이 있습니다 (예: 일시적인 오류로부터 "API~X 실패"를 추론). 그러나 이러한 관찰은 본질적으로 부분적이고 잠재적으로 모호합니다. 이러한 방법은 하나의 결론을 확정하고 불확실성을 버림으로써 자기 강화 오류를 발생시킵니다. 에이전트는 저장된 결론에 따라 행동하고, 다른 가능성을 재고하지 않으며, 시간이 지남에 따라 해당 결론을 강화합니다. 이러한 문제를 해결하기 위해, 우리는 BeliefMem을 제안합니다. BeliefMem은 메모리 패러다임을 각 관찰에 대해 하나의 결론을 확정하는 것에서, 여러 개의 후보 결론과 그 확률을 유지하는 것으로 전환합니다. 구체적으로, BeliefMem은 후보 결론을 별도의 메모리 항목으로 저장하며, 각 항목은 새로운 관찰이 도착함에 따라 Noisy-OR 규칙을 통해 업데이트되는 확률을 포함합니다. 검색 시, 모든 후보 결론이 해당 확률과 함께 표시되어 에이전트가 다른 가능성을 인지할 수 있도록 합니다. 메모리에 저장된 각 결론은 해당 확률을 유지하므로, BeliefMem은 결정적인 패러다임에서 버려지는 불확실성을 보존합니다. 이를 통해 에이전트는 충분한 증거가 있는 지식에 대해 높은 신뢰도로 행동하면서, 새로운 증거가 도착했을 때 자신의 신뢰도를 업데이트할 수 있는 능력을 유지합니다. LoCoMo 및 ALFWorld 벤치마크에 대한 실험적 평가 결과, 제한된 데이터에도 불구하고 BeliefMem은 최고의 평균 성능을 달성했으며, 잘 알려진 기본 모델보다 훨씬 뛰어난 성능을 보였습니다. 더 넓은 의미에서, 이러한 확률 기반 메모리는 상당한 이점을 제공하며, 부분적으로 관찰 가능한 환경에서 에이전트 메모리의 새로운 방향을 제시합니다.
LLM agents that operate over long context depend on external memory to accumulate knowledge over time. However, existing methods typically store each observation as a single deterministic conclusion (e.g., inferring "API~X failed" from temporary errors), even though such observations are inherently partial and potentially ambiguous. By committing to one conclusion and discarding uncertainty, these methods introduce self-reinforcing error: the agent acts on the stored conclusion, never revisits alternatives, and reinforces the conclusion over time. To address this issue, we propose BeliefMem, which shifts the memory paradigm from committing to a single conclusion per observation to retaining multiple candidate conclusions with their probabilities. Concretely, BeliefMem stores the candidate conclusions as separate memory entries, each carrying a probability that is updated via Noisy-OR rules as new observations arrive. At retrieval, all candidates surface together with their probabilities, keeping alternatives visible to the agent. Since each conclusion in memory retains its probability, BeliefMem preserves the uncertainty that the deterministic paradigm discards, enabling the agent to act with high confidence on well-evidenced knowledge while retaining the capacity to update its confidence when new evidence arrives. Empirical evaluations on LoCoMo and ALFWorld benchmarks show that, even with limited data, BeliefMem achieves the best average performance, remarkably outperforming well-known baselines. More broadly, such probabilistic memory produces substantial gains and explores a new direction for agent memory in partially observable environments.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.