2602.01335v1 Feb 01, 2026 cs.CV

픽셀을 넘어: 스키마 기반 에이전트 추론을 통한 시각적 은유 전이

Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning

Yu Xu
Yu Xu
Citations: 50
h-index: 4
Yuxin Zhang
Yuxin Zhang
Citations: 30
h-index: 2
Juan Cao
Juan Cao
Citations: 199
h-index: 9
Lin Gao
Lin Gao
Citations: 20
h-index: 2
Chunyu Wang
Chunyu Wang
Citations: 251
h-index: 6
Oliver Deussen
Oliver Deussen
Citations: 93
h-index: 6
Tong-Yee Lee
Tong-Yee Lee
Citations: 152
h-index: 7
Fan Tang
Fan Tang
Citations: 211
h-index: 9

시각적 은유는 인간의 창의성의 고차원적인 형태로, 서로 다른 영역의 의미를 융합하여 추상적인 개념을 효과적인 시각적 표현으로 변환합니다. 생성형 AI의 놀라운 발전에도 불구하고, 기존 모델은 대부분 픽셀 수준의 명령 정렬과 표면적인 표현 유지에 머무르며, 진정한 은유 생성을 위해서는 필요한 근본적인 추상적 논리를 포착하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 '시각적 은유 전이(VMT)'라는 과제를 제안합니다. 이 과제는 모델이 참조 이미지에서 '창의적인 본질'을 자율적으로 분리하고, 사용자가 지정한 대상에 해당 추상적 논리를 재현하도록 도전합니다. 우리는 개념 혼합 이론(CBT)을 새로운 스키마 문법('G')을 통해 구현하는 인지 기반의 다중 에이전트 프레임워크를 제안합니다. 이 구조화된 표현은 관계적 불변성을 특정 시각적 요소로부터 분리하여, 다양한 영역 간의 논리 재구현을 위한 엄격한 기반을 제공합니다. 우리의 파이프라인은 특수화된 에이전트 시스템을 통해 VMT를 실행합니다. 여기에는 참조 이미지를 스키마로 추출하는 인식 에이전트, 일반적인 공간 불변성을 유지하여 적절한 매개체를 찾는 전이 에이전트, 고품질 합성을 수행하는 생성 에이전트, 그리고 전문 비평가의 역할을 모방하여 추상적 논리, 구성 요소 선택, 프롬프트 인코딩 전반에 걸쳐 오류를 식별하고 수정하는 계층적 진단 에이전트가 포함됩니다. 광범위한 실험과 인간 평가 결과, 우리의 방법은 은유의 일관성, 비유의 적절성, 시각적 창의성 측면에서 기존 최고 성능 모델을 크게 능가하며, 광고 및 미디어 분야에서 자동화된 고성능 창의적 응용 분야를 위한 길을 열어줍니다. 소스 코드는 공개적으로 제공될 예정입니다.

Original Abstract

A visual metaphor constitutes a high-order form of human creativity, employing cross-domain semantic fusion to transform abstract concepts into impactful visual rhetoric. Despite the remarkable progress of generative AI, existing models remain largely confined to pixel-level instruction alignment and surface-level appearance preservation, failing to capture the underlying abstract logic necessary for genuine metaphorical generation. To bridge this gap, we introduce the task of Visual Metaphor Transfer (VMT), which challenges models to autonomously decouple the "creative essence" from a reference image and re-materialize that abstract logic onto a user-specified target subject. We propose a cognitive-inspired, multi-agent framework that operationalizes Conceptual Blending Theory (CBT) through a novel Schema Grammar ("G"). This structured representation decouples relational invariants from specific visual entities, providing a rigorous foundation for cross-domain logic re-instantiation. Our pipeline executes VMT through a collaborative system of specialized agents: a perception agent that distills the reference into a schema, a transfer agent that maintains generic space invariance to discover apt carriers, a generation agent for high-fidelity synthesis and a hierarchical diagnostic agent that mimics a professional critic, performing closed-loop backtracking to identify and rectify errors across abstract logic, component selection, and prompt encoding. Extensive experiments and human evaluations demonstrate that our method significantly outperforms SOTA baselines in metaphor consistency, analogy appropriateness, and visual creativity, paving the way for automated high-impact creative applications in advertising and media. Source code will be made publicly available.

2 Citations
0 Influential
4.5 Altmetric
24.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!