전략적 탐색인가, 확률적 탐색인가? 에이전트와 인간이 문서 컬렉션을 탐색하는 방식
Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections
다양한 기능을 가진 에이전트는 복잡한 문서 기반 워크플로우를 자동화하는 데 유망한 방법을 제공합니다. 그러나 중요한 질문이 남아 있습니다. 이러한 에이전트는 진정한 전략적 추론을 보여주는 것인가, 아니면 단순히 확률적인 시행착오 탐색을 수행하는 것인가? 이를 해결하기 위해, 우리는 800개의 이질적인 PDF 문서에 기반한 2,250개의 인간이 작성한 질문으로 구성된 벤치마크인 MADQA를 소개합니다. 고전 시험 이론에 따라 설계된 MADQA는 다양한 수준의 에이전트 능력을 측정하는 데 필요한 차별성을 극대화합니다. 에이전트의 행동을 평가하기 위해, 우리는 정확도와 노력 간의 균형을 측정하는 새로운 평가 프로토콜을 도입합니다. 이 프레임워크를 사용하여, 최고의 에이전트가 인간 검색자와 비슷한 수준의 정확도를 달성할 수 있지만, 주로 다른 질문에 성공하며, 전략적 계획의 부족을 보완하기 위해 무차별적인 탐색에 의존한다는 것을 보여줍니다. 에이전트는 거의 20%에 달하는 오라클 성능과의 격차를 좁히지 못하고, 비생산적인 반복에 빠집니다. 우리는 데이터셋과 평가 도구를 공개하여, 무차별적인 검색에서 보다 정교하고 효율적인 추론으로의 전환을 촉진하고자 합니다.
Multimodal agents offer a promising path to automating complex document-intensive workflows. Yet, a critical question remains: do these agents demonstrate genuine strategic reasoning, or merely stochastic trial-and-error search? To address this, we introduce MADQA, a benchmark of 2,250 human-authored questions grounded in 800 heterogeneous PDF documents. Guided by Classical Test Theory, we design it to maximize discriminative power across varying levels of agentic abilities. To evaluate agentic behaviour, we introduce a novel evaluation protocol measuring the accuracy-effort trade-off. Using this framework, we show that while the best agents can match human searchers in raw accuracy, they succeed on largely different questions and rely on brute-force search to compensate for weak strategic planning. They fail to close the nearly 20% gap to oracle performance, persisting in unproductive loops. We release the dataset and evaluation harness to help facilitate the transition from brute-force retrieval to calibrated, efficient reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.