인지적 분기점과 시각적 앵커링: 다중 모드 추론 모델의 환각 현상 분석 및 개선
Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models
다중 모드 대규모 추론 모델(MLRM)은 테스트 시간 계산 확장 기술을 통해 시각적 추론 분야에서 괄목할 만한 발전을 이루었지만, 여전히 긴 추론 과정에서 환각 현상이 발생하기 쉽습니다. 본 연구에서는 '추론-시각-진실 불일치(RVTD)'라는 우려스러운 현상을 밝혀냈습니다. RVTD는 환각 현상이 인지적 분기점에서 강하게 연관되며, 이러한 분기점은 종종 높은 엔트로피 상태를 나타냅니다. 이러한 취약성은 네트워크의 중간 계층에서 발생하는 시각적 의미 앵커링의 실패로 인해 발생합니다. 특히, 불확실성이 높은 전환 과정에서 모델은 시각적 증거를 참조하지 못하고, 대신 언어적 사전 지식에 의존하는 경향이 있습니다. 따라서, 우리는 단순히 결과 수준의 감독 학습에서 벗어나, 세분화된 내부 주의(attention) 가이드 기능을 추가하는 방식을 제안합니다. 이를 위해, 시각적 정보를 인식하는 추론 능력을 내재화하도록 설계된 가벼운 통합 학습 패러다임인 V-STAR(Visual Structural Training with Attention Reinforcement)를 제안합니다. 우리의 접근 방식의 핵심은 계층적 시각적 주의 보상(HVAR)이며, 이는 GRPO 프레임워크 내에 통합되어 있습니다. 이 메커니즘은 높은 엔트로피 상태를 감지하면 중요한 중간 계층에서 시각적 주의를 동적으로 장려하여 추론 과정을 시각적 입력에 다시 연결합니다. 또한, 우리는 '강제 반성 메커니즘(FRM)'이라는 경로 편집 전략을 도입하여, 인지적 관성을 깨고 높은 엔트로피의 인지적 분기점에서 반성을 유도하며, 이후 단계의 과정을 시각적 입력에 대해 검증하도록 장려합니다. 이를 통해 외부 편향 해소 개입을 내재적인 환각 완화 능력으로 전환할 수 있습니다.
Multimodal Large Reasoning Models (MLRMs) have achieved remarkable strides in visual reasoning through test time compute scaling, yet long chain reasoning remains prone to hallucinations. We identify a concerning phenomenon termed the Reasoning Vision Truth Disconnect (RVTD): hallucinations are strongly correlated with cognitive bifurcation points that often exhibit high entropy states. We attribute this vulnerability to a breakdown in visual semantic anchoring, localized within the network's intermediate layers; specifically, during these high uncertainty transitions, the model fails to query visual evidence, reverting instead to language priors. Consequently, we advocate a shift from solely outcome level supervision to augmenting it with fine grained internal attention guidance. To this end, we propose V-STAR (Visual Structural Training with Attention Reinforcement), a lightweight, holistic training paradigm designed to internalize visually aware reasoning capabilities. Central to our approach is the Hierarchical Visual Attention Reward (HVAR), integrated within the GRPO framework. Upon detecting high entropy states, this mechanism dynamically incentivizes visual attention across critical intermediate layers, thereby anchoring the reasoning process back to the visual input. Furthermore, we introduce the Forced Reflection Mechanism (FRM), a trajectory editing strategy that disrupts cognitive inertia by triggering reflection around high entropy cognitive bifurcation points and encouraging verification of subsequent steps against the visual input, thereby translating external debiasing interventions into an intrinsic capability for hallucination mitigation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.