환영을 헤쳐나가는 방법: 강력한 오해의 소지가 있는 차트 질문 답변을 위한 이중 경로 에이전트 프레임워크
Navigating the Mirage: A Dual-Path Agentic Framework for Robust Misleading Chart Question Answering
비전-언어 모델(VLMs)의 성공에도 불구하고, 오해를 유발하는 차트는 기만적인 시각적 구조와 왜곡된 데이터 표현으로 인해 여전히 중요한 과제입니다. 본 논문에서는 시각적 기만을 파악하기 위한 '비판적인' 추론 방식을 활용하는 에이전트 기반의 이중 경로 프레임워크인 ChartCynics를 제안합니다. ChartCynics는 전체적인 모델과 달리, 인지 과정과 검증 과정을 분리합니다. 진단 비전 경로는 전략적인 관심 영역(ROI) 추출을 통해 구조적 이상(예: 축 반전)을 감지하고, OCR 기반 데이터 경로는 수치적 정확성을 보장합니다. 서로 다른 모달리티 간의 충돌을 해결하기 위해, 우리는 두 단계의 프로토콜을 통해 최적화된 에이전트 요약기(Agentic Summarizer)를 도입합니다. 첫 번째 단계는 오라클 정보를 활용한 지도 학습(SFT)을 통해 추론 능력을 향상시키고, 두 번째 단계는 기만 인지 강화 학습(GRPO)을 통해 적대적 정렬을 수행합니다. 이 파이프라인은 시각적인 함정을 효과적으로 방지하고 논리적 일관성을 강화합니다. 두 가지 벤치마크에서 ChartCynics는 각각 74.43% 및 64.55%의 정확도를 달성하여, Qwen3-VL-8B 모델의 성능을 약 29% 향상시켰으며, 최첨단 독점 모델보다 우수한 성능을 보였습니다. 본 연구 결과는 특수 목적 에이전트 워크플로우가 더 작고 개방형 소스 모델에 더 뛰어난 견고성을 제공할 수 있음을 보여주며, 신뢰할 수 있는 차트 해석을 위한 새로운 기반을 제시합니다.
Despite the success of Vision-Language Models (VLMs), misleading charts remain a significant challenge due to their deceptive visual structures and distorted data representations. We present ChartCynics, an agentic dual-path framework designed to unmask visual deception via a "skeptical" reasoning paradigm. Unlike holistic models, ChartCynics decouples perception from verification: a Diagnostic Vision Path captures structural anomalies (e.g., inverted axes) through strategic ROI cropping, while an OCR-Driven Data Path ensures numerical grounding. To resolve cross-modal conflicts, we introduce an Agentic Summarizer optimized via a two-stage protocol: Oracle-Informed SFT for reasoning distillation and Deception-Aware GRPO for adversarial alignment. This pipeline effectively penalizes visual traps and enforces logical consistency. Evaluations on two benchmarks show that ChartCynics achieves 74.43% and 64.55% accuracy, providing an absolute performance boost of ~29% over the Qwen3-VL-8B backbone, outperforming state-of-the-art proprietary models. Our results demonstrate that specialized agentic workflows can grant smaller open-source models superior robustness, establishing a new foundation for trustworthy chart interpretation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.