시맨틱 탐색을 통한 시각적 프롬프트 자동 발견
Visual Prompt Discovery via Semantic Exploration
LVLM(Large Vision Language Models)은 이미지 이해 및 시각적 추론에서 심각한 어려움을 겪으며, 이는 중요한 인지 오류로 이어질 수 있습니다. 이미지 조작 코드를 포함하는 시각적 프롬프트는 이러한 문제를 완화하는 데 유망한 가능성을 보여주었습니다. 그러나 기존의 시각적 프롬프트 생성 방법은 LVLM의 인지 오류의 근본 원인을 진단하고 해결하기보다는 도구 선택에 초점을 맞추었습니다. LVLM의 불투명성과 예측 불가능성으로 인해, 최적의 시각적 프롬프트는 경험적 실험을 통해 발견해야 하며, 이는 지금까지 수동적인 인간의 시행착오에 의존해 왔습니다. 본 논문에서는 작업별 시각적 프롬프트를 발견하기 위한 자동화된 시맨틱 탐색 프레임워크를 제안합니다. 제안하는 방법은 에이전트 기반 실험을 통해 다양한 탐색을 효율적으로 수행하며, 인간의 개입을 최소화하고 개별 샘플 생성의 비효율성을 피합니다. 우리는 시각적 프롬프트 탐색의 주요 과제인 (1) 장황하고 낮은 수준의 코드로 인한 방해 요소와 (2) 방대하고 비정형적인 시각적 프롬프트 검색 공간을 해결하는 시맨틱 탐색 알고리즘인 SEVEX를 소개합니다. 구체적으로, 본 방법은 추상적인 아이디어 공간을 검색 공간으로 활용하고, 새로운 아이디어를 탐색하는 알고리즘과, 시맨틱 피드백 기반의 아이디어 생성 프로세스를 사용하여 경험적 결과를 기반으로 다양한 시각적 프롬프트를 효율적으로 탐색합니다. SEVEX는 LVLM의 인지를 평가하도록 설계된 BlindTest 및 BLINK 벤치마크에서 평가되었습니다. 실험 결과는 SEVEX가 작업 정확도, 추론 효율성, 탐색 효율성 및 탐색 안정성 측면에서 기존 방법보다 현저히 우수한 성능을 보임을 보여줍니다. 특히, 본 프레임워크는 기존의 도구 사용을 넘어선 정교하고 직관에 어긋나는 시각적 전략을 발견하며, 자동화된 작업별 시각적 프롬프트를 통해 LVLM 인지를 향상시키는 새로운 패러다임을 제시합니다.
LVLMs encounter significant challenges in image understanding and visual reasoning, leading to critical perception failures. Visual prompts, which incorporate image manipulation code, have shown promising potential in mitigating these issues. While emerged as a promising direction, previous methods for visual prompt generation have focused on tool selection rather than diagnosing and mitigating the root causes of LVLM perception failures. Because of the opacity and unpredictability of LVLMs, optimal visual prompts must be discovered through empirical experiments, which have relied on manual human trial-and-error. We propose an automated semantic exploration framework for discovering task-wise visual prompts. Our approach enables diverse yet efficient exploration through agent-driven experiments, minimizing human intervention and avoiding the inefficiency of per-sample generation. We introduce a semantic exploration algorithm named SEVEX, which addresses two major challenges of visual prompt exploration: (1) the distraction caused by lengthy, low-level code and (2) the vast, unstructured search space of visual prompts. Specifically, our method leverages an abstract idea space as a search space, a novelty-guided selection algorithm, and a semantic feedback-driven ideation process to efficiently explore diverse visual prompts based on empirical results. We evaluate SEVEX on the BlindTest and BLINK benchmarks, which are designed to assess LVLM perception. Experimental results demonstrate that SEVEX significantly outperforms baseline methods in task accuracy, inference efficiency, exploration efficiency, and exploration stability. Notably, our framework discovers sophisticated and counter-intuitive visual strategies that go beyond conventional tool usage, offering a new paradigm for enhancing LVLM perception through automated, task-wise visual prompts.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.