ImagenWorld: 설명 가능한 인간 평가를 통한 개방형 실세계 작업에서의 이미지 생성 모델 성능 검증
ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks
확산 모델, 자기 회귀 모델, 그리고 하이브리드 모델의 발전으로 인해 텍스트-이미지 변환, 편집, 참조 기반 합성 등 다양한 작업에서 고품질 이미지 생성이 가능해졌습니다. 하지만 기존의 벤치마크는 제한적인데, 특정 작업에만 초점을 맞추거나, 좁은 영역만 다루거나, 실패 원인을 설명하지 않는 불투명한 점수를 제공하는 경우가 많습니다. 본 연구에서는 3,600개의 조건 세트로 구성된 벤치마크인 **ImagenWorld**를 소개합니다. 이는 단일 또는 다중 참조를 사용하는 6가지 핵심 작업(생성 및 편집)과 6가지 주제 영역(예술 작품, 사실적인 이미지, 정보 그래픽, 텍스트 그래픽, 컴퓨터 그래픽, 스크린샷)을 포괄합니다. 벤치마크는 20,000개의 세분화된 인간 어노테이션과 함께 제공되며, 자동화된 VLM 기반 지표를 보완하여 객체 수준 및 세그먼트 수준의 오류를 식별하는 설명 가능한 평가 체계를 갖추고 있습니다. 14개의 모델에 대한 대규모 평가 결과, 다음과 같은 몇 가지 중요한 통찰력을 얻었습니다. (1) 모델은 일반적으로 생성 작업보다 편집 작업, 특히 지역 편집 작업에서 더 어려움을 겪습니다. (2) 모델은 예술적 및 사실적인 환경에서는 뛰어난 성능을 보이지만, 스크린샷 및 정보 그래픽과 같은 기호적이고 텍스트 중심적인 영역에서는 어려움을 겪습니다. (3) 폐쇄형 시스템이 전반적으로 우수한 성능을 보이지만, 특정 데이터 큐레이션(예: Qwen-Image)을 통해 텍스트 중심적인 경우 성능 격차가 줄어듭니다. (4) 최신 VLM 기반 지표는 최대 0.79의 Kendall 정확도를 달성하여 인간 순위와 유사한 성능을 보이지만, 세분화되고 설명 가능한 오류 분석에는 한계가 있습니다. ImagenWorld는 견고한 이미지 생성을 발전시키기 위한 엄격한 벤치마크이자 진단 도구를 제공합니다.
Advances in diffusion, autoregressive, and hybrid models have enabled high-quality image synthesis for tasks such as text-to-image, editing, and reference-guided composition. Yet, existing benchmarks remain limited, either focus on isolated tasks, cover only narrow domains, or provide opaque scores without explaining failure modes. We introduce \textbf{ImagenWorld}, a benchmark of 3.6K condition sets spanning six core tasks (generation and editing, with single or multiple references) and six topical domains (artworks, photorealistic images, information graphics, textual graphics, computer graphics, and screenshots). The benchmark is supported by 20K fine-grained human annotations and an explainable evaluation schema that tags localized object-level and segment-level errors, complementing automated VLM-based metrics. Our large-scale evaluation of 14 models yields several insights: (1) models typically struggle more in editing tasks than in generation tasks, especially in local edits. (2) models excel in artistic and photorealistic settings but struggle with symbolic and text-heavy domains such as screenshots and information graphics. (3) closed-source systems lead overall, while targeted data curation (e.g., Qwen-Image) narrows the gap in text-heavy cases. (4) modern VLM-based metrics achieve Kendall accuracies up to 0.79, approximating human ranking, but fall short of fine-grained, explainable error attribution. ImagenWorld provides both a rigorous benchmark and a diagnostic tool to advance robust image generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.