2602.02004v1 Feb 02, 2026 cs.CV

ClueTracer: 질문-시각 정보 연계 기반 단서 추적을 통한 훈련 불필요한 환각 현상 억제 방법론 (다중 모드 추론)

ClueTracer: Question-to-Vision Clue Tracing for Training-Free Hallucination Suppression in Multimodal Reasoning

Huahui Yi
Huahui Yi
Citations: 66
h-index: 4
Haolang Lu
Haolang Lu
Citations: 132
h-index: 4
Kun Wang
Kun Wang
Citations: 14
h-index: 1
Gongli Xi
Gongli Xi
Citations: 7
h-index: 1
Zeming Gao
Zeming Gao
Citations: 62
h-index: 1
Ye Tian
Ye Tian
Citations: 0
h-index: 0
Wendong Wang
Wendong Wang
Citations: 4
h-index: 1

대규모 다중 모드 추론 모델은 명시적인 장기 추론 과정을 통해 복잡한 시각적 문제를 해결합니다. 이러한 모델은 이미지에서 시각적 단서를 수집하고, 이를 텍스트 토큰으로 변환합니다. 하지만 이러한 기능은 모델이 입력 이미지나 질문에 의해 뒷받침되지 않는 내용을 생성하는 환각 현상을 증가시킬 수 있습니다. 이러한 문제점을 이해하기 위해, 우리는 '추론 드리프트(reasoning drift)' 현상을 파악했습니다. 이는 단서 수집 과정에서 모델이 질문과 관련 없는 요소에 과도하게 집중하여, 과제와 관련된 핵심 단서에 대한 집중력이 약화되고, 추론 과정이 시각적 정보와 동떨어지는 현상입니다. 결과적으로, 기존의 비-추론 모델을 위한 추론 시간 로컬라이제이션 또는 개입 방법은 추론 환경에서 진정한 단서를 정확하게 파악하지 못합니다. 이러한 문제점을 해결하기 위해, 우리는 시각적 단서 검색 성능을 평가하는 지표인 'ClueRecall'을 제시하고, 훈련 없이, 파라미터 변경 없이, 그리고 모델 구조에 독립적인 환각 현상 억제 플러그인인 'ClueTracer'를 제안합니다. ClueTracer는 질문에서 시작하여 모델의 추론 경로(질문 → 출력 → 시각적 토큰)를 따라 핵심 단서가 어떻게 전파되는지 추적함으로써, 과제와 관련된 영역을 정확하게 식별하고, 관련 없는 영역에 대한 불필요한 주의를 억제합니다. 놀랍게도, ClueTracer는 추가적인 훈련 없이도, exttt{R1-OneVision}, exttt{Ocean-R1}, exttt{MM-Eureka} 등 다양한 추론 모델 아키텍처의 성능을 각각 최대 1.21배 향상시켰습니다. 또한, 비-추론 환경으로 적용했을 때에도 1.14배의 성능 향상을 보였습니다.

Original Abstract

Large multimodal reasoning models solve challenging visual problems via explicit long-chain inference: they gather visual clues from images and decode clues into textual tokens. Yet this capability also increases hallucinations, where the model generates content that is not supported by the input image or the question. To understand this failure mode, we identify \emph{reasoning drift}: during clue gathering, the model over-focuses on question-irrelevant entities, diluting focus on task-relevant cues and gradually decoupling the reasoning trace from visual grounding. As a consequence, many inference-time localization or intervention methods developed for non-reasoning models fail to pinpoint the true clues in reasoning settings. Motivated by these insights, we introduce ClueRecall, a metric for assessing visual clue retrieval, and present ClueTracer, a training-free, parameter-free, and architecture-agnostic plugin for hallucination suppression. ClueTracer starts from the question and traces how key clues propagate along the model's reasoning pathway (question $\rightarrow$ outputs $\rightarrow$ visual tokens), thereby localizing task-relevant patches while suppressing spurious attention to irrelevant regions. Remarkably, \textbf{without any additional training}, ClueTracer improves all \textbf{reasoning} architectures (including \texttt{R1-OneVision}, \texttt{Ocean-R1}, \texttt{MM-Eureka}, \emph{etc}.) by $\mathbf{1.21\times}$ on reasoning benchmarks. When transferred to \textbf{non-reasoning} settings, it yields a $\mathbf{1.14\times}$ gain.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!