과학적 이미지 합성: 벤치마킹, 방법론 및 활용
Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility
합성 데이터는 텍스트 기반 과학적 추론 능력 향상에 효과적이었지만, 다중 모드 추론은 과학적으로 정확한 이미지를 합성하는 어려움으로 인해 제한적입니다. 기존 텍스트-이미지(T2I) 모델은 종종 시각적으로는 타당하지만 과학적으로는 부정확한 결과를 생성하며, 이는 시각적-논리적 불일치를 야기하여 하위 작업에서의 유용성을 제한합니다. 차세대 T2I 모델의 최근 발전 동향에 따라, 우리는 과학적 이미지 합성의 다양한 생성 방식, 평가 및 활용 측면에서 체계적인 연구를 수행했습니다. 우리는 직접적인 픽셀 기반 생성과 프로그래밍 기반 합성을 모두 분석하고, 구조적 정확성을 향상시키기 위한 논리 기반 프레임워크인 ImgCoder를 제안합니다. 과학적 정확성을 엄격하게 평가하기 위해, 생성된 이미지의 정보 유용성과 논리적 타당성을 평가하는 SciGenBench를 도입했습니다. 우리의 평가는 픽셀 기반 모델의 체계적인 오류 패턴을 드러내고, 표현력과 정확성 간의 근본적인 상충 관계를 강조합니다. 마지막으로, 엄격하게 검증된 합성 과학적 이미지를 사용하여 대규모 다중 모드 모델(LMM)을 미세 조정하면 텍스트 도메인과 유사한 확장 가능성을 보이는 일관된 추론 능력이 향상되며, 이는 고품질 과학적 합성 기술이 막대한 다중 모드 추론 능력을 실현하는 실행 가능한 방법임을 입증합니다.
While synthetic data has proven effective for improving scientific reasoning in the text domain, multimodal reasoning remains constrained by the difficulty of synthesizing scientifically rigorous images. Existing Text-to-Image (T2I) models often produce outputs that are visually plausible yet scientifically incorrect, resulting in a persistent visual-logic divergence that limits their value for downstream reasoning. Motivated by recent advances in next-generation T2I models, we conduct a systematic study of scientific image synthesis across generation paradigms, evaluation, and downstream use. We analyze both direct pixel-based generation and programmatic synthesis, and propose ImgCoder, a logic-driven framework that follows an explicit "understand - plan - code" workflow to improve structural precision. To rigorously assess scientific correctness, we introduce SciGenBench, which evaluates generated images based on information utility and logical validity. Our evaluation reveals systematic failure modes in pixel-based models and highlights a fundamental expressiveness-precision trade-off. Finally, we show that fine-tuning Large Multimodal Models (LMMs) on rigorously verified synthetic scientific images yields consistent reasoning gains, with potential scaling trends analogous to the text domain, validating high-fidelity scientific synthesis as a viable path to unlocking massive multimodal reasoning capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.