InEdit-Bench: 지능형 이미지 편집 모델을 위한 중간 논리 경로 벤치마킹
InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models
다중 모드 생성 모델은 이미지 편집 분야에서 상당한 발전을 이루었으며, 다양한 정적 작업에서 뛰어난 성능을 보여줍니다. 그러나 이러한 모델의 능력은 일반적으로 동적 추론이 필요한 복잡한 시나리오에는 적용되지 않으며, 초기 상태에서 최종 상태로의 다단계 변화를 구성하는 일관된 중간 논리 경로를 모델링하는 데 어려움을 겪습니다. 이러한 능력은 시각적 조작에 대한 더 깊은 수준의 절차적 및 인과적 이해를 가능하게 하는 데 중요합니다. 이러한 중요한 한계를 체계적으로 측정하기 위해, 이미지 편집 과정의 중간 경로에 대한 추론을 평가하는 최초의 벤치마크인 InEdit-Bench를 소개합니다. InEdit-Bench는 상태 변화, 동적 과정, 시간적 순서, 과학적 시뮬레이션의 네 가지 기본 작업 범주를 포괄하는 세심하게 주석이 달린 테스트 케이스로 구성됩니다. 또한, 생성된 경로의 논리적 일관성과 시각적 자연스러움, 그리고 모델이 지정된 경로 제약 조건을 얼마나 잘 따르는지를 평가하기 위한 평가 기준을 제안합니다. InEdit-Bench를 사용하여 14개의 대표적인 이미지 편집 모델을 종합적으로 평가한 결과, 이 분야에서 상당하고 광범위한 부족함이 드러났습니다. 표준화되고 도전적인 벤치마크를 제공함으로써, InEdit-Bench는 연구를 촉진하고 개발을 더 동적이고, 추론 능력을 갖추고, 지능적인 다중 모드 생성 모델로 이끌어가는 데 기여하고자 합니다.
Multimodal generative models have made significant strides in image editing, demonstrating impressive performance on a variety of static tasks. However, their proficiency typically does not extend to complex scenarios requiring dynamic reasoning, leaving them ill-equipped to model the coherent, intermediate logical pathways that constitute a multi-step evolution from an initial state to a final one. This capacity is crucial for unlocking a deeper level of procedural and causal understanding in visual manipulation. To systematically measure this critical limitation, we introduce InEdit-Bench, the first evaluation benchmark dedicated to reasoning over intermediate pathways in image editing. InEdit-Bench comprises meticulously annotated test cases covering four fundamental task categories: state transition, dynamic process, temporal sequence, and scientific simulation. Additionally, to enable fine-grained evaluation, we propose a set of assessment criteria to evaluate the logical coherence and visual naturalness of the generated pathways, as well as the model's fidelity to specified path constraints. Our comprehensive evaluation of 14 representative image editing models on InEdit-Bench reveals significant and widespread shortcomings in this domain. By providing a standardized and challenging benchmark, we aim for InEdit-Bench to catalyze research and steer development towards more dynamic, reason-aware, and intelligent multimodal generative models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.