2602.16173v1 Feb 18, 2026 cs.AI

인간 피드백을 통한 개인화된 에이전트 학습

Learning Personalized Agents from Human Feedback

S. Hosseini
S. Hosseini
Citations: 13,535
h-index: 8
Shaoliang Nie
Shaoliang Nie
Citations: 13,682
h-index: 14
Xianjun Yang
Xianjun Yang
Citations: 43
h-index: 2
Kaiqu Liang
Kaiqu Liang
Princeton University
Citations: 277
h-index: 8
Julia Kruk
Julia Kruk
Citations: 0
h-index: 0
Shengjie Bi
Shengjie Bi
Citations: 2
h-index: 1
J. F. Fisac
J. F. Fisac
Citations: 105
h-index: 7
Shengyi Qian
Shengyi Qian
Citations: 22
h-index: 2
Mingyang Zhang
Mingyang Zhang
Citations: 2,050
h-index: 3
Lijuan Liu
Lijuan Liu
Citations: 14
h-index: 2
Yuanshun Yao
Yuanshun Yao
Citations: 666
h-index: 9
Shuyan Zhou
Shuyan Zhou
Citations: 162
h-index: 6

최신 AI 에이전트들은 강력하지만 개별 사용자의 독특하고 변화하는 선호도에 부합하지 못하는 경우가 많다. 기존 접근 방식들은 일반적으로 상호작용 기록을 바탕으로 암시적 선호 모델을 훈련시키거나 사용자 프로필을 외부 메모리에 저장하는 등 정적 데이터셋에 의존한다. 그러나 이러한 방식은 새로운 사용자나 시간이 지남에 따라 변하는 선호도를 처리하는 데 어려움을 겪는다. 본 논문에서는 에이전트가 명시적인 사용자별 메모리를 사용하여 실시간 상호작용을 통해 온라인으로 학습하는 지속적 개인화 프레임워크인 PAHF(Personalized Agents from Human Feedback)를 제안한다. PAHF는 (1) 모호성을 해소하기 위해 행동 전 확인을 구하고, (2) 메모리에서 검색된 선호도에 기반하여 행동하며, (3) 선호도가 변할 때 행동 후 피드백을 통합하여 메모리를 업데이트하는 3단계 루프를 수행한다. 이러한 능력을 평가하기 위해 우리는 4단계 프로토콜과 신체 조작(embodied manipulation) 및 온라인 쇼핑 분야의 두 가지 벤치마크를 개발했다. 이 벤치마크들은 에이전트가 초기 선호도를 바닥부터 학습하고 이후 페르소나 변화에 적응하는 능력을 정량화한다. 우리의 이론적 분석과 실험 결과는 명시적 메모리와 이중 피드백 채널을 통합하는 것이 중요하다는 것을 보여준다. PAHF는 메모리가 없거나 단일 채널을 사용하는 베이스라인보다 훨씬 빠르게 학습하고 일관되게 우수한 성능을 보이며, 초기 개인화 오류를 줄이고 선호도 변화에 신속하게 적응할 수 있게 한다.

Original Abstract

Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user profiles in external memory. However, these approaches struggle with new users and with preferences that change over time. We introduce Personalized Agents from Human Feedback (PAHF), a framework for continual personalization in which agents learn online from live interaction using explicit per-user memory. PAHF operationalizes a three-step loop: (1) seeking pre-action clarification to resolve ambiguity, (2) grounding actions in preferences retrieved from memory, and (3) integrating post-action feedback to update memory when preferences drift. To evaluate this capability, we develop a four-phase protocol and two benchmarks in embodied manipulation and online shopping. These benchmarks quantify an agent's ability to learn initial preferences from scratch and subsequently adapt to persona shifts. Our theoretical analysis and empirical results show that integrating explicit memory with dual feedback channels is critical: PAHF learns substantially faster and consistently outperforms both no-memory and single-channel baselines, reducing initial personalization error and enabling rapid adaptation to preference shifts.

0 Citations
0 Influential
7 Altmetric
35.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!