π-Bench: 장기 워크플로우 환경에서 능동적인 개인 비서 에이전트 평가
$π$-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
OpenClaw와 같은 개인 비서 에이전트의 등장은 대규모 언어 모델이 사용자들의 일상생활 및 업무를 지원하는 데 있어 상당한 잠재력을 가지고 있음을 보여줍니다. 이러한 환경에서 핵심적인 과제는 능동적인 지원 제공인데, 사용자들은 종종 명확하게 정의되지 않은 요청을 시작하며, 중요한 요구사항, 제약 조건 또는 선호 사항을 명시하지 않는 경우가 많습니다. 그러나 기존의 벤치마크는 에이전트가 사용자가 명시적으로 언급하기 전에 그러한 숨겨진 의도를 파악하고 실행할 수 있는지 여부를 평가하는 데 드물게 사용됩니다. 특히, 사용자 요구사항이 점진적으로 드러나는 지속적인 다중 턴 상호 작용에서 이러한 평가는 더욱 중요합니다. 이러한 격차를 해소하기 위해, 우리는 5가지 도메인별 사용자 페르소나를 활용한 100개의 다중 턴 작업으로 구성된 능동적인 지원 평가 벤치마크인 π-Bench를 소개합니다. π-Bench는 숨겨진 사용자 의도, 작업 간의 의존성, 그리고 세션 간의 연속성을 포함하여, 에이전트가 확장된 상호 작용을 통해 사용자 요구사항을 예측하고 해결하는 능력을 평가합니다. 이를 통해 능동성과 작업 완료도를 측정하여 실제 사용 환경을 보다 잘 반영합니다. 실험 결과는 (1) 능동적인 지원은 여전히 어려운 과제이며, (2) 작업 완료와 능동성 사이에 명확한 차이가 존재하며, (3) 이전 상호 작용이 후속 작업에서 능동적인 의도 해결에 중요한 가치를 지닌다는 것을 보여줍니다.
The rise of personal assistant agents, e.g., OpenClaw, highlights the growing potential of large language models to support users across everyday life and work. A core challenge in these settings is proactive assistance, since users often begin with underspecified requests and leave important needs, constraints, or preferences unstated. However, existing benchmarks rarely evaluate whether agents can identify and act on such hidden intents before they are explicitly stated, especially in sustained multi-turn interactions where user needs emerge gradually. To address this gap, we introduce $π$-Bench, a benchmark for proactive assistance comprising 100 multi-turn tasks across 5 domain-specific user personas. By incorporating hidden user intents, inter-task dependencies, and cross-session continuity, $π$-Bench evaluates agents' ability to anticipate and address user needs over extended interactions, jointly measuring proactivity and task completion in long-horizon trajectories that better reflect real-world use. Experiments show (1) proactive assistance remains challenging, (2) a clear distinction between task completion and proactivity, and (3) the value of prior interaction for proactive intent resolution in later tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.