2605.14401v1 May 14, 2026 cs.CL

계층적 Belief-State 메모리를 활용한 에이전트 기반 추천 시스템

Agentic Recommender System with Hierarchical Belief-State Memory

Yuhang Zhou
Yuhang Zhou
Citations: 13
h-index: 3
Lizhu Zhang
Lizhu Zhang
Citations: 167
h-index: 7
Zhuokai Zhao
Zhuokai Zhao
Citations: 129
h-index: 5
Benyu Zhang
Benyu Zhang
Citations: 26
h-index: 3
Lei Huang
Lei Huang
Citations: 20
h-index: 3
Xiangjun Fan
Xiangjun Fan
Citations: 120
h-index: 5
Xiang Shen
Xiang Shen
Citations: 14
h-index: 2
Yifan Wu
Yifan Wu
Citations: 57
h-index: 4
Siyu Lin
Siyu Lin
Citations: 0
h-index: 0
Qianqian Zhong
Qianqian Zhong
Citations: 0
h-index: 0
Hong Yan
Hong Yan
Citations: 95
h-index: 6

메모리 기반 LLM 에이전트는 개인화된 추천 시스템 발전에 기여했지만, 기존 방식은 일률적으로 평면적인 메모리 표현을 사용하여 일시적인 신호와 안정적인 선호도를 혼합하고 있으며, 메모리가 어떻게 진화해야 하는지에 대한 완전한 생명 주기를 제공하는 방식은 존재하지 않습니다. 본 논문에서는 MARS (Memory-Augmented Agentic Recommender System)라는 프레임워크를 제안합니다. MARS는 추천을 부분적으로 관찰 가능한 문제로 간주하고, 노이즈가 많은 행동 관찰 결과를 사용자 선호도의 간결한 추정치로 점진적으로 추상화하는 구조화된 Belief-State를 유지합니다. MARS는 이 Belief-State를 세 가지 계층으로 구성합니다. 이벤트 메모리는 원시 신호를 저장하고, 선호도 메모리는 명시적인 강도 및 증거 추적을 통해 세분화된 변경 가능한 정보 조각을 유지하며, 프로필 메모리는 모든 선호도를 일관된 자연어 서술로 요약합니다. 추출, 강화, 약화, 통합, 망각, 재합성이라는 여섯 가지 작업으로 구성된 완전한 생명 주기는 LLM 기반 계획자에 의해 적응적으로 예약되며, 고정 간격 기반의 휴리스틱 방식을 따르지 않습니다. InstructRec 벤치마크 도메인 4개에서 수행한 실험 결과, MARS는 평균적으로 HR@1에서 26.4%, NDCG@10에서 10.3%의 성능 향상을 보이며, 변화하는 환경에서 에이전트 기반 계획을 통해 추가적인 성능 향상을 달성했습니다. 이는 최고 성능을 보이는 기존 방식보다 우수한 결과입니다.

Original Abstract

Memory-augmented LLM agents have advanced personalized recommendation, yet existing approaches universally adopt flat memory representations that conflate ephemeral signals with stable preferences, and none provides a complete lifecycle governing how memory should evolve. We propose MARS (Memory-Augmented Agentic Recommender System), a framework that treats recommendation as a partially observable problem and maintains a structured belief state that progressively abstracts noisy behavioral observations into a compact estimate of user preferences. MARS organizes this belief state into three tiers: event memory buffers raw signals, preference memory maintains fine-grained mutable chunks with explicit strength and evidence tracking, and profile memory distills all preferences into a coherent natural language narrative. A complete lifecycle of six operations -- extraction, reinforcement, weakening, consolidation, forgetting, and resynthesis -- is adaptively scheduled by an LLM-based planner rather than fixed-interval heuristics. Experiments on four InstructRec benchmark domains show that \ours achieves state-of-the-art performance with average improvements of 26.4% in HR@1 and 10.3% in NDCG@10 over the strongest baselines with further gains from agentic scheduling in evolving settings.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!