Persona2Web: 사용자 기록을 활용한 문맥적 추론을 위한 개인화된 웹 에이전트 벤치마킹
Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History
대규모 언어 모델은 웹 에이전트의 발전을 이끌었지만, 현재 에이전트들은 개인화 역량이 부족하다. 사용자가 자신의 의도를 모든 세부 사항까지 명시하는 경우는 드물기 때문에, 실용적인 웹 에이전트는 사용자의 선호도와 문맥을 추론하여 모호한 질의를 해석할 수 있어야 한다. 이러한 과제를 해결하기 위해, 우리는 명시적인 지시에 의존하기보다 사용자 기록을 기반으로 모호성을 해소하도록 에이전트에게 요구하는 '개인화를 위한 명확화(clarify-to-personalize)' 원칙에 기반하여 구축된, 실제 오픈 웹 상에서 개인화된 웹 에이전트를 평가하는 최초의 벤치마크인 Persona2Web을 제안한다. Persona2Web은 (1) 오랜 기간에 걸쳐 선호도를 암묵적으로 드러내는 사용자 기록, (2) 에이전트가 암묵적인 사용자 선호도를 추론해야 하는 모호한 질의, (3) 개인화에 대한 세밀한 평가를 가능하게 하는 추론 인지(reasoning-aware) 평가 프레임워크로 구성된다. 우리는 다양한 에이전트 아키텍처, 백본 모델, 기록 접근 방식, 그리고 모호성 수준이 다양한 질의에 걸쳐 광범위한 실험을 수행하여 개인화된 웹 에이전트 동작의 주요 과제들을 밝혀낸다. 재현성을 위해 코드와 데이터셋은 https://anonymous.4open.science/r/Persona2Web-73E8 에서 공개적으로 접근할 수 있다.
Large language models have advanced web agents, yet current agents lack personalization capabilities. Since users rarely specify every detail of their intent, practical web agents must be able to interpret ambiguous queries by inferring user preferences and contexts. To address this challenge, we present Persona2Web, the first benchmark for evaluating personalized web agents on the real open web, built upon the clarify-to-personalize principle, which requires agents to resolve ambiguity based on user history rather than relying on explicit instructions. Persona2Web consists of: (1) user histories that reveal preferences implicitly over long time spans, (2) ambiguous queries that require agents to infer implicit user preferences, and (3) a reasoning-aware evaluation framework that enables fine-grained assessment of personalization. We conduct extensive experiments across various agent architectures, backbone models, history access schemes, and queries with varying ambiguity levels, revealing key challenges in personalized web agent behavior. For reproducibility, our codes and datasets are publicly available at https://anonymous.4open.science/r/Persona2Web-73E8.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.