MiroEval: 프로세스와 결과 측면에서 다중 모드 딥 리서치 에이전트의 성능 평가
MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome
최근 딥 리서치 시스템의 발전은 인상적이었지만, 실제 사용자 요구 사항에 비해 평가 방법은 여전히 뒤쳐지고 있습니다. 기존의 벤치마크는 주로 고정된 평가 기준을 사용하여 최종 보고서만을 평가하며, 연구 과정 자체를 평가하지 못합니다. 또한, 대부분의 벤치마크는 제한적인 다중 모드 데이터를 사용하고, 실제 환경의 복잡성을 반영하지 못하는 인공적인 작업을 기반으로 하며, 지식의 변화에 따라 업데이트하기 어렵다는 단점이 있습니다. 이러한 문제점을 해결하기 위해, 우리는 딥 리서치 시스템을 위한 벤치마크 및 평가 프레임워크인 MiroEval을 소개합니다. MiroEval은 실제 사용자 요구 사항에 기반하여 설계된 100개의 작업(텍스트 기반 70개, 다중 모드 30개)으로 구성되어 있으며, 주기적인 업데이트를 지원하는 이중 경로 파이프라인을 통해 실시간으로 변화하는 환경을 반영합니다. 제안된 평가 시스템은 딥 리서치 시스템을 세 가지 상호 보완적인 측면에서 평가합니다. 첫째, 작업별로 정의된 평가 기준을 사용하여 적응적 합성 품질을 평가합니다. 둘째, 웹 소스와 다중 모드 데이터를 활용한 능동적인 정보 검색 및 추론을 통해 에이전트의 사실성 검증을 수행합니다. 셋째, 시스템이 검색, 추론, 그리고 조사 과정 전반에 걸쳐 어떻게 작동하는지 평가합니다. 13개의 시스템에 대한 평가 결과, 세 가지 평가 차원이 시스템의 다양한 능력을 보완적으로 나타내며, 각 차원이 시스템별로 뚜렷한 강점과 약점을 드러낸다는 것을 확인했습니다. 또한, 연구 과정의 품질은 전체 결과의 신뢰성 있는 예측 지표로 작용하며, 결과 지표로는 파악하기 어려운 시스템의 약점을 드러냅니다. 다중 모드 작업은 상당한 어려움을 야기하며, 대부분의 시스템에서 3~10점이 감소했습니다. MiroThinker 시리즈는 가장 균형 잡힌 성능을 보였으며, 특히 MiroThinker-H1은 전체적으로 가장 높은 순위를 기록했습니다. 인간 검증 및 견고성 테스트 결과는 벤치마크 및 평가 프레임워크의 신뢰성을 뒷받침합니다. MiroEval은 차세대 딥 리서치 에이전트를 위한 포괄적인 진단 도구입니다.
Recent progress in deep research systems has been impressive, but evaluation still lags behind real user needs. Existing benchmarks predominantly assess final reports using fixed rubrics, failing to evaluate the underlying research process. Most also offer limited multimodal coverage, rely on synthetic tasks that do not reflect real-world query complexity, and cannot be refreshed as knowledge evolves. To address these gaps, we introduce MiroEval, a benchmark and evaluation framework for deep research systems. The benchmark comprises 100 tasks (70 text-only, 30 multimodal), all grounded in real user needs and constructed via a dual-path pipeline that supports periodic updates, enabling a live and evolving setting. The proposed evaluation suite assesses deep research systems along three complementary dimensions: adaptive synthesis quality evaluation with task-specific rubrics, agentic factuality verification via active retrieval and reasoning over both web sources and multimodal attachments, and process-centric evaluation audits how the system searches, reasons, and refines throughout its investigation. Evaluation across 13 systems yields three principal findings: the three evaluation dimensions capture complementary aspects of system capability, with each revealing distinct strengths and weaknesses across systems; process quality serves as a reliable predictor of overall outcome while revealing weaknesses invisible to output-level metrics; and multimodal tasks pose substantially greater challenges, with most systems declining by 3 to 10 points. The MiroThinker series achieves the most balanced performance, with MiroThinker-H1 ranking the highest overall in both settings. Human verification and robustness results confirm the reliability of the benchmark and evaluation framework. MiroEval provides a holistic diagnostic tool for the next generation of deep research agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.