2604.04733v1 Apr 06, 2026 cs.CV

강화 학습을 활용한 시각-언어 모델의 오류 모드 발견

Discovering Failure Modes in Vision-Language Models using RL

Parisa Kordjamshidi
Parisa Kordjamshidi
Citations: 71
h-index: 5
Shravan Nayak
Shravan Nayak
Citations: 280
h-index: 7
Kanishk Jain
Kanishk Jain
Citations: 102
h-index: 5
N. Anand
N. Anand
Citations: 230
h-index: 5
Aishwarya Agrawal
Aishwarya Agrawal
Citations: 9,086
h-index: 19
Qian Yang
Qian Yang
Citations: 15
h-index: 1

시각-언어 모델(VLM)은 다양한 멀티모달 벤치마크에서 뛰어난 성능을 보이지만, 인간이 쉽게 이해하는 간단한 시각적 개념, 예를 들어 개수 세기, 공간 추론, 시점 이해 등을 자주 오해합니다. 이전 연구에서는 이러한 약점을 수동으로 식별했으며, 이는 종종 특정 기술의 부족에서 비롯된다는 것을 발견했습니다. 그러나 이러한 수동적인 노력은 비용이 많이 들고, 확장성이 떨어지며, 인간의 주관성에 영향을 받습니다. 이는 종종 눈에 띄는 객체에 집중하여 미묘한 세부 사항을 간과하게 만들어 모델의 취약점에 대한 불완전한 이해를 초래합니다. 이러한 한계를 극복하기 위해, 우리는 인간의 개입 없이 주어진 데이터 분포에서 모든 후보 VLM의 오류 모드 또는 약점을 자동으로 발견하는 강화 학습(RL) 기반 프레임워크를 제안합니다. 우리의 프레임워크는 후보 VLM의 응답을 기반으로 적응적으로 쿼리를 생성하는 질의자 에이전트를 학습시켜 잘못된 답변을 유도합니다. 우리의 접근 방식은 훈련이 진행됨에 따라 세분화된 시각적 세부 사항과 다양한 기술 조합에 초점을 맞춤으로써 질문의 복잡성을 높여, VLM이 어려움을 겪는 36가지 새로운 오류 모드를 식별합니다. 우리는 다양한 모델 조합에서 일반화되는 우리의 프레임워크의 광범위한 적용 가능성을 보여줍니다.

Original Abstract

Vision-language Models (VLMs), despite achieving strong performance on multimodal benchmarks, often misinterpret straightforward visual concepts that humans identify effortlessly, such as counting, spatial reasoning, and viewpoint understanding. Previous studies manually identified these weaknesses and found that they often stem from deficits in specific skills. However, such manual efforts are costly, unscalable, and subject to human bias, which often overlooks subtle details in favor of salient objects, resulting in an incomplete understanding of a model's vulnerabilities. To address these limitations, we propose a Reinforcement Learning (RL)-based framework to automatically discover the failure modes or blind spots of any candidate VLM on a given data distribution without human intervention. Our framework trains a questioner agent that adaptively generates queries based on the candidate VLM's responses to elicit incorrect answers. Our approach increases question complexity by focusing on fine-grained visual details and distinct skill compositions as training progresses, consequently identifying 36 novel failure modes in which VLMs struggle. We demonstrate the broad applicability of our framework by showcasing its generalizability across various model combinations.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!