DLEBench: 지시 기반 이미지 편집 모델의 소규모 객체 편집 능력 평가
DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model
지시 기반 이미지 편집 모델(IIEM) 분야에서 상당한 발전이 이루어졌습니다. 그러나 이러한 모델들은 현재 벤치마크에서 지시에 대한 합리적인 준수와 강력한 추론 능력을 보여주지만, 정밀한 로컬 편집 및 실제 및 생성 이미지의 세부 사항 개선에 중요한 소규모 객체 편집 능력은 아직 충분히 연구되지 않았습니다. 본 논문에서는 IIEM의 소규모 객체 편집 능력을 평가하는 데 전용된 최초의 벤치마크인 DeepLookEditBench (DLEBench)를 소개합니다. 구체적으로, 우리는 7가지 유형의 지시를 포함하는 1889개의 샘플로 구성된 도전적인 테스트베드를 구축했습니다. 이러한 샘플에서 대상 객체는 이미지 영역의 1%에서 10%에 불과하며, 부분적인 가려짐 및 다중 객체 편집과 같은 복잡한 시나리오를 포함합니다. 이 벤치마크에 대한 강력한 평가를 보장하기 위해, 우리는 주관성과 모호성을 최소화하기 위한 세분화된 평가 기준을 갖춘 평가 프로토콜을 제안합니다. 이 프로토콜은 또한 LMM-as-a-Judge와 DLEBench에서의 인간 판단 간의 불일치를 해결하는 이중 모드 평가 프레임워크(Tool-driven 및 Oracle-guided 모드)를 도입합니다. 10개의 IIEM에 대한 실험 결과는 소규모 객체 편집 능력에서 상당한 성능 격차를 드러내며, 이러한 능력을 발전시키기 위해서는 특수한 벤치마크가 필요함을 강조합니다.
Significant progress has been made in the field of Instruction-based Image Editing Models (IIEMs). However, while these models demonstrate plausible adherence to instructions and strong reasoning ability on current benchmarks, their ability to edit small objects remains underexplored, despite its importance for precise local editing and refining details in both real and generated images. In this paper, we introduce DeepLookEditBench (DLEBench), the first benchmark dedicated to assessing the abilities of IIEMs in editing small-scale objects. Specifically, we construct a challenging testbed comprising 1889 samples across seven instruction types. In these samples, target objects occupy only 1%-10% of the image area, covering complex scenarios such as partial occlusion and multi-object editing. To ensure robust evaluation on this benchmark, we propose an evaluation protocol with refined score rubrics to minimize subjectivity and ambiguity in two criteria: Instruction Following and Visual Consistency. This protocol also introduces a dual-mode evaluation framework (Tool-driven and Oracle-guided Modes) addressing the misalignment between LMM-as-a-Judge and human judgements on DLEBench. Empirical results on 10 IIEMs reveal significant performance gaps in small-scale object editing, highlighting the need for specialized benchmarks to advance this ability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.