2603.16737v1 Mar 17, 2026 cs.CV

반사실적 예시 검색이 시각적 문맥 학습 능력을 향상시킨다

Retrieving Counterfactuals Improves Visual In-Context Learning

Kevin I-Kai Wang
Kevin I-Kai Wang
Citations: 0
h-index: 0
Guangzhi Xiong
Guangzhi Xiong
Citations: 893
h-index: 10
Sanchit Sinha
Sanchit Sinha
Citations: 138
h-index: 6
Zhenghao He
Zhenghao He
Citations: 4
h-index: 1

시각-언어 모델(VLM)은 다양한 다중 모드 추론 작업에서 뛰어난 성능을 보이지만, 미세한 시각적 속성을 분리하고 근본적인 인과 관계에 대해 추론하는 데 어려움을 겪는 경우가 많습니다. 문맥 학습(ICL)은 VLM이 새로운 작업에 적응할 수 있는 유망한 방법이지만, 그 효과는 데모 예제의 선택에 크게 의존합니다. 기존의 검색 기반 접근 방식은 일반적으로 수동적인 유사성 기반 검색에 의존하며, 이는 상관 관계가 있지만 인과 관계가 없는 예제를 선택하는 경향이 있어, 표면적인 연관성을 증폭시키고 모델의 견고성을 제한합니다. 본 논문에서는 CIRCLES(Composed Image Retrieval for Causal Learning Example Selection)라는 새로운 프레임워크를 소개합니다. CIRCLES는 대상 속성을 기반으로 하는 정교한 이미지 검색을 통해 반사실적인 예제를 능동적으로 검색하여 데모 세트를 구성합니다. CIRCLES는 반사실적인 예제를 포함함으로써, VLM이 속성과 결과 사이의 인과 관계에 대해 암묵적으로 추론할 수 있도록 하여, 단순한 상관 관계를 넘어 더욱 견고하고 의미 있는 추론을 가능하게 합니다. 4개의 다양한 데이터 세트에 대한 종합적인 실험 결과, CIRCLES는 다양한 아키텍처에서 기존 방법보다 일관되게 우수한 성능을 보이며, 특히 소규모 모델에서 두드러진 성능 향상을 보였습니다. 또한, CIRCLES는 더욱 다양하고 인과적으로 유용한 예제를 검색하며, 모델이 문맥 내 데모를 활용하여 추론 능력을 향상시키는 방법에 대한 질적인 통찰력을 제공합니다. 저희의 코드는 https://github.com/gzxiong/CIRCLES 에서 확인할 수 있습니다.

Original Abstract

Vision-language models (VLMs) have achieved impressive performance across a wide range of multimodal reasoning tasks, but they often struggle to disentangle fine-grained visual attributes and reason about underlying causal relationships. In-context learning (ICL) offers a promising avenue for VLMs to adapt to new tasks, but its effectiveness critically depends on the selection of demonstration examples. Existing retrieval-augmented approaches typically rely on passive similarity-based retrieval, which tends to select correlated but non-causal examples, amplifying spurious associations and limiting model robustness. We introduce CIRCLES (Composed Image Retrieval for Causal Learning Example Selection), a novel framework that actively constructs demonstration sets by retrieving counterfactual-style examples through targeted, attribute-guided composed image retrieval. By incorporating counterfactual-style examples, CIRCLES enables VLMs to implicitly reason about the causal relations between attributes and outcomes, moving beyond superficial correlations and fostering more robust and grounded reasoning. Comprehensive experiments on four diverse datasets demonstrate that CIRCLES consistently outperforms existing methods across multiple architectures, especially on small-scale models, with pronounced gains under information scarcity. Furthermore, CIRCLES retrieves more diverse and causally informative examples, providing qualitative insights into how models leverage in-context demonstrations for improved reasoning. Our code is available at https://github.com/gzxiong/CIRCLES.

0 Citations
0 Influential
30.493061443341 Altmetric
152.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!