2604.04172v1 Apr 05, 2026 cs.CV

GENFIG1: 시각적 요약이 비전-언어 모델에게 주는 도전 과제 - 학술 연구의 '그림 1' 활용

GENFIG1: Visual Summaries of Scholarly Work as a Challenge for Vision-Language Models

Daniel Khashabi
Daniel Khashabi
Citations: 262
h-index: 8
N. Dehak
N. Dehak
Citations: 12,674
h-index: 48
Pristina Wang
Pristina Wang
Citations: 8
h-index: 1
Alan L. Yuille
Alan L. Yuille
Citations: 1,054
h-index: 3
Jieneng Chen
Jieneng Chen
Citations: 182
h-index: 5
Yaohan Guan
Yaohan Guan
Citations: 4
h-index: 1

많은 과학 논문에서 '그림 1'은 핵심 연구 아이디어의 주요 시각적 요약 역할을 합니다. 이러한 그림은 시각적으로는 단순하지만 개념적으로 풍부하며, 종종 인간 연구자들이 상당한 노력과 반복을 거쳐 완성합니다. 이는 과학 시각 커뮤니케이션의 어려움을 잘 보여줍니다. 이러한 점을 바탕으로, 저희는 생성형 AI 모델(예: 비전-언어 모델)을 위한 벤치마크인 GENFIG1을 소개합니다. GENFIG1은 모델이 논문의 핵심 아이디어를 명확하게 표현하고 설명하는 그림을 생성하는 능력을 평가합니다. 이때 입력으로 사용되는 정보는 논문의 제목, 초록, 서론, 그리고 그림 설명입니다. GENFIG1 문제를 해결하기 위해서는 시각적으로 매력적인 그래픽을 생성하는 것 이상이 필요합니다. 이 작업은 과학적 이해와 시각적 합성 능력을 결합한 텍스트-이미지 생성에 대한 추론을 요구합니다. 구체적으로, 모델은 (i) 논문의 기술적 개념을 이해하고 파악해야 하며, (ii) 가장 중요한 개념을 식별하고, (iii) 이러한 개념을 시각적으로 전달하고 입력 정보에 충실한, 일관성 있고 미적으로 효과적인 그래픽을 설계해야 합니다. 저희는 최고의 딥러닝 학회에 발표된 논문들을 기반으로 이 벤치마크를 구축하고, 엄격한 품질 관리를 적용했으며, 전문가의 판단과 높은 상관관계를 보이는 자동 평가 지표를 도입했습니다. 저희는 GENFIG1을 사용하여 다양한 모델을 평가하고, 이 작업이 최고 성능의 시스템에서도 상당한 어려움을 야기한다는 것을 보여줍니다. 저희는 이 벤치마크가 향후 다중 모드 AI 발전의 기반이 되기를 바랍니다.

Original Abstract

In many science papers, "Figure 1" serves as the primary visual summary of the core research idea. These figures are visually simple yet conceptually rich, often requiring significant effort and iteration by human authors to get right, highlighting the difficulty of science visual communication. With this intuition, we introduce GENFIG1, a benchmark for generative AI models (e.g., Vision-Language Models). GENFIG1 evaluates models for their ability to produce figures that clearly express and motivate the central idea of a paper (title, abstract, introduction, and figure caption) as input. Solving GENFIG1 requires more than producing visually appealing graphics: the task entails reasoning for text-to-image generation that couples scientific understanding with visual synthesis. Specifically, models must (i) comprehend and grasp the technical concepts of the paper, (ii) identify the most salient ones, and (iii) design a coherent and aesthetically effective graphic that conveys those concepts visually and is faithful to the input. We curate the benchmark from papers published at top deep-learning conferences, apply stringent quality control, and introduce an automatic evaluation metric that correlates well with expert human judgments. We evaluate a suite of representative models on GENFIG1 and demonstrate that the task presents significant challenges, even for the best-performing systems. We hope this benchmark serves as a foundation for future progress in multimodal AI.

0 Citations
0 Influential
24 Altmetric
120.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!