ClueTracer: 질문-시각 정보 연계 기반 단서 추적을 통한 훈련 불필요한 환각 현상 억제 방법론 (다중 모드 추론)
ClueTracer: Question-to-Vision Clue Tracing for Training-Free Hallucination Suppression in Multimodal Reasoning
대규모 다중 모드 추론 모델은 명시적인 장기 추론 과정을 통해 복잡한 시각적 문제를 해결합니다. 이러한 모델은 이미지에서 시각적 단서를 수집하고, 이를 텍스트 토큰으로 변환합니다. 하지만 이러한 기능은 모델이 입력 이미지나 질문에 의해 뒷받침되지 않는 내용을 생성하는 환각 현상을 증가시킬 수 있습니다. 이러한 문제점을 이해하기 위해, 우리는 '추론 드리프트(reasoning drift)' 현상을 파악했습니다. 이는 단서 수집 과정에서 모델이 질문과 관련 없는 요소에 과도하게 집중하여, 과제와 관련된 핵심 단서에 대한 집중력이 약화되고, 추론 과정이 시각적 정보와 동떨어지는 현상입니다. 결과적으로, 기존의 비-추론 모델을 위한 추론 시간 로컬라이제이션 또는 개입 방법은 추론 환경에서 진정한 단서를 정확하게 파악하지 못합니다. 이러한 문제점을 해결하기 위해, 우리는 시각적 단서 검색 성능을 평가하는 지표인 'ClueRecall'을 제시하고, 훈련 없이, 파라미터 변경 없이, 그리고 모델 구조에 독립적인 환각 현상 억제 플러그인인 'ClueTracer'를 제안합니다. ClueTracer는 질문에서 시작하여 모델의 추론 경로(질문 → 출력 → 시각적 토큰)를 따라 핵심 단서가 어떻게 전파되는지 추적함으로써, 과제와 관련된 영역을 정확하게 식별하고, 관련 없는 영역에 대한 불필요한 주의를 억제합니다. 놀랍게도, ClueTracer는 추가적인 훈련 없이도, exttt{R1-OneVision}, exttt{Ocean-R1}, exttt{MM-Eureka} 등 다양한 추론 모델 아키텍처의 성능을 각각 최대 1.21배 향상시켰습니다. 또한, 비-추론 환경으로 적용했을 때에도 1.14배의 성능 향상을 보였습니다.
Large multimodal reasoning models solve challenging visual problems via explicit long-chain inference: they gather visual clues from images and decode clues into textual tokens. Yet this capability also increases hallucinations, where the model generates content that is not supported by the input image or the question. To understand this failure mode, we identify \emph{reasoning drift}: during clue gathering, the model over-focuses on question-irrelevant entities, diluting focus on task-relevant cues and gradually decoupling the reasoning trace from visual grounding. As a consequence, many inference-time localization or intervention methods developed for non-reasoning models fail to pinpoint the true clues in reasoning settings. Motivated by these insights, we introduce ClueRecall, a metric for assessing visual clue retrieval, and present ClueTracer, a training-free, parameter-free, and architecture-agnostic plugin for hallucination suppression. ClueTracer starts from the question and traces how key clues propagate along the model's reasoning pathway (question $\rightarrow$ outputs $\rightarrow$ visual tokens), thereby localizing task-relevant patches while suppressing spurious attention to irrelevant regions. Remarkably, \textbf{without any additional training}, ClueTracer improves all \textbf{reasoning} architectures (including \texttt{R1-OneVision}, \texttt{Ocean-R1}, \texttt{MM-Eureka}, \emph{etc}.) by $\mathbf{1.21\times}$ on reasoning benchmarks. When transferred to \textbf{non-reasoning} settings, it yields a $\mathbf{1.14\times}$ gain.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.