2605.14678v1 May 14, 2026 cs.AI

π-Bench: 장기 워크플로우 환경에서 능동적인 개인 비서 에이전트 평가

$π$-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

Xiaoye Qu
Xiaoye Qu
Citations: 1,394
h-index: 19
Yang Yang
Yang Yang
Citations: 39
h-index: 3
Luxin Xu
Luxin Xu
Citations: 27
h-index: 3
Yafu Li
Yafu Li
Citations: 370
h-index: 8
Yu Cheng
Yu Cheng
Citations: 122
h-index: 5
Haoran Zhang
Haoran Zhang
Citations: 50
h-index: 2
Zhilin Wang
Zhilin Wang
Citations: 229
h-index: 5
Runquan Gui
Runquan Gui
Citations: 30
h-index: 2
Shunkai Zhang
Shunkai Zhang
Citations: 7
h-index: 1
Hao Lei
Hao Lei
Citations: 9
h-index: 2
Zihao He
Zihao He
Citations: 153
h-index: 7
Bingsu He
Bingsu He
Citations: 3
h-index: 1
Chicheng Qin
Chicheng Qin
Citations: 1
h-index: 1
Tong Zhu
Tong Zhu
Citations: 14
h-index: 2

OpenClaw와 같은 개인 비서 에이전트의 등장은 대규모 언어 모델이 사용자들의 일상생활 및 업무를 지원하는 데 있어 상당한 잠재력을 가지고 있음을 보여줍니다. 이러한 환경에서 핵심적인 과제는 능동적인 지원 제공인데, 사용자들은 종종 명확하게 정의되지 않은 요청을 시작하며, 중요한 요구사항, 제약 조건 또는 선호 사항을 명시하지 않는 경우가 많습니다. 그러나 기존의 벤치마크는 에이전트가 사용자가 명시적으로 언급하기 전에 그러한 숨겨진 의도를 파악하고 실행할 수 있는지 여부를 평가하는 데 드물게 사용됩니다. 특히, 사용자 요구사항이 점진적으로 드러나는 지속적인 다중 턴 상호 작용에서 이러한 평가는 더욱 중요합니다. 이러한 격차를 해소하기 위해, 우리는 5가지 도메인별 사용자 페르소나를 활용한 100개의 다중 턴 작업으로 구성된 능동적인 지원 평가 벤치마크인 π-Bench를 소개합니다. π-Bench는 숨겨진 사용자 의도, 작업 간의 의존성, 그리고 세션 간의 연속성을 포함하여, 에이전트가 확장된 상호 작용을 통해 사용자 요구사항을 예측하고 해결하는 능력을 평가합니다. 이를 통해 능동성과 작업 완료도를 측정하여 실제 사용 환경을 보다 잘 반영합니다. 실험 결과는 (1) 능동적인 지원은 여전히 어려운 과제이며, (2) 작업 완료와 능동성 사이에 명확한 차이가 존재하며, (3) 이전 상호 작용이 후속 작업에서 능동적인 의도 해결에 중요한 가치를 지닌다는 것을 보여줍니다.

Original Abstract

The rise of personal assistant agents, e.g., OpenClaw, highlights the growing potential of large language models to support users across everyday life and work. A core challenge in these settings is proactive assistance, since users often begin with underspecified requests and leave important needs, constraints, or preferences unstated. However, existing benchmarks rarely evaluate whether agents can identify and act on such hidden intents before they are explicitly stated, especially in sustained multi-turn interactions where user needs emerge gradually. To address this gap, we introduce $π$-Bench, a benchmark for proactive assistance comprising 100 multi-turn tasks across 5 domain-specific user personas. By incorporating hidden user intents, inter-task dependencies, and cross-session continuity, $π$-Bench evaluates agents' ability to anticipate and address user needs over extended interactions, jointly measuring proactivity and task completion in long-horizon trajectories that better reflect real-world use. Experiments show (1) proactive assistance remains challenging, (2) a clear distinction between task completion and proactivity, and (3) the value of prior interaction for proactive intent resolution in later tasks.

1 Citations
0 Influential
9.5 Altmetric
48.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!