SCOPE: 구조적 분해 및 조건부 기술 오케스트레이션을 통한 복잡한 이미지 생성
SCOPE: Structured Decomposition and Conditional Skill Orchestration for Complex Image Generation
텍스트-이미지 모델은 시각적 품질 측면에서 상당한 발전을 이루었지만, 복잡한 시각적 의도를 충실히 구현하는 것은 여전히 어려운 과제입니다. 이는 접지, 생성 및 검증 과정에서 많은 요구 사항을 추적해야 하기 때문입니다. 이러한 요구 사항을 '의미적 약속(semantic commitments)'이라고 부르며, 이러한 약속들의 수명 주기 단절 현상을 '개념적 단절(Conceptual Rift)'이라고 정의합니다. 즉, 약속은 로컬적으로 해결되거나 확인될 수 있지만, 생성 수명 주기 전체에 걸쳐 동일한 운영 단위로 유지되지 못할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 SCOPE라는 사양 기반 기술 오케스트레이션 프레임워크를 제안합니다. SCOPE는 의미적 약속을 진화하는 구조화된 사양 내에서 유지하며, 해결되지 않거나 위반된 약속에 대해 조건적으로 검색, 추론 및 수정 기술을 호출합니다. 약속 수준의 의도 구현을 평가하기 위해, 우리는 개체 및 제약 조건 수준의 사양을 포함하는 인간이 주석을 단 다음 벤치마크인 Gen-Arena를 도입했습니다. 또한, 개체 우선 평가 기준인 Entity-Gated Intent Pass Rate (EGIP)를 제시했습니다. SCOPE는 Gen-Arena에서 평가된 모든 기준 모델보다 훨씬 뛰어난 성능을 보이며, 0.60의 EGIP를 달성했습니다. 또한, WISE-V (0.907) 및 MindBench (0.61)에서도 뛰어난 결과를 보여주며, 복잡한 이미지 생성에서 지속적인 약속 추적의 효과를 입증합니다.
While text-to-image models have made strong progress in visual fidelity, faithfully realizing complex visual intents remains challenging because many requirements must be tracked across grounding, generation, and verification. We refer to these requirements as semantic commitments and formalize their lifecycle discontinuity as the Conceptual Rift, where commitments may be locally resolved or checked but fail to remain identifiable as the same operational units throughout the generation lifecycle. To address this, we propose SCOPE, a specification-guided skill orchestration framework that maintains semantic commitments in an evolving structured specification and conditionally invokes retrieval, reasoning, and repair skills around unresolved or violated commitments. To evaluate commitment-level intent realization, we introduce Gen-Arena, a human-annotated benchmark with entity- and constraint-level specifications, together with Entity-Gated Intent Pass Rate (EGIP), a strict entity-first pass criterion. SCOPE substantially outperforms all evaluated baselines on Gen-Arena, achieving 0.60 EGIP, and further achieves strong results on WISE-V (0.907) and MindBench (0.61), demonstrating the effectiveness of persistent commitment tracking for complex image generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.