과학 표 및 그림 분석 성능 향상을 위한 Anagent
Anagent For Enhancing Scientific Table & Figure Analysis
과학 연구에서 분석은 복잡한 다중 모드 지식을 정확하게 해석하고, 다양한 출처의 증거를 통합하며, 특정 분야 지식을 기반으로 추론을 도출하는 것을 필요로 합니다. 그러나 현재 인공지능(AI) 시스템은 이러한 능력을 일관되게 보여주는 데 어려움을 겪고 있습니다. 과학 표와 그림의 복잡성과 다양성, 그리고 이질적인 구조와 긴 문맥 요구 사항은 과학 표 및 그림 분석에 근본적인 장애물을 야기합니다. 이러한 과제를 정량화하기 위해, 우리는 9개의 과학 분야에서 추출한 63,178개의 사례를 포함하는 대규모 벤치마크인 AnaBench를 소개하며, 이는 7가지 복잡성 차원에 따라 체계적으로 분류되었습니다. 이러한 과제를 해결하기 위해, 우리는 Anagent라는 멀티 에이전트 프레임워크를 제안합니다. Anagent는 네 가지 전문 에이전트를 통해 과학 표 및 그림 분석 성능을 향상시킵니다. Planner는 작업을 실행 가능한 하위 작업으로 분해하고, Expert는 대상 도구 실행을 통해 작업별 정보를 검색하며, Solver는 정보를 종합하여 일관성 있는 분석을 생성하고, Critic는 5차원 품질 평가를 통해 반복적인 개선을 수행합니다. 또한, 우리는 지도 학습 및 특수 강화 학습을 활용하여 개별 에이전트의 능력을 최적화하고 효과적인 협업을 유지하는 모듈형 학습 전략을 개발했습니다. 170개의 하위 분야를 포함하는 9개의 광범위한 분야에 대한 종합적인 평가 결과, Anagent는 튜닝 없이 최대 13.43%, 튜닝을 통해 최대 42.12%의 상당한 성능 향상을 달성했으며, 이는 작업 지향적 추론과 문맥 인지 문제 해결이 고품질의 과학 표 및 그림 분석에 필수적임을 보여줍니다. 프로젝트 페이지: https://xhguo7.github.io/Anagent/.
In scientific research, analysis requires accurately interpreting complex multimodal knowledge, integrating evidence from different sources, and drawing inferences grounded in domain-specific knowledge. However, current artificial intelligence (AI) systems struggle to consistently demonstrate such capabilities. The complexity and variability of scientific tables and figures, combined with heterogeneous structures and long-context requirements, pose fundamental obstacles to scientific table \& figure analysis. To quantify these challenges, we introduce AnaBench, a large-scale benchmark featuring $63,178$ instances from nine scientific domains, systematically categorized along seven complexity dimensions. To tackle these challenges, we propose Anagent, a multi-agent framework for enhanced scientific table \& figure analysis through four specialized agents: Planner decomposes tasks into actionable subtasks, Expert retrieves task-specific information through targeted tool execution, Solver synthesizes information to generate coherent analysis, and Critic performs iterative refinement through five-dimensional quality assessment. We further develop modular training strategies that leverage supervised finetuning and specialized reinforcement learning to optimize individual capabilities while maintaining effective collaboration. Comprehensive evaluation across 9 broad domains with 170 subdomains demonstrates that Anagent achieves substantial improvements, up to $\uparrow 13.43\%$ in training-free settings and $\uparrow 42.12\%$ with finetuning, while revealing that task-oriented reasoning and context-aware problem-solving are essential for high-quality scientific table \& figure analysis. Our project page: https://xhguo7.github.io/Anagent/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.