2601.23220v1 Jan 30, 2026 cs.CV

Med-Scout: 기하학적 인지 능력 결핍을 극복하는 MLLM의 새로운 방법: 기하학적 정보 기반 강화 학습 후처리

Med-Scout: Curing MLLMs' Geometric Blindness in Medical Perception via Geometry-Aware RL Post-Training

Anglin Liu
Anglin Liu
Citations: 25
h-index: 2
Rui Chen
Rui Chen
Citations: 74
h-index: 4
Yi Lu
Yi Lu
Citations: 96
h-index: 2
Hongxia Xu
Hongxia Xu
Citations: 169
h-index: 6
Jintai Chen
Jintai Chen
Citations: 2,541
h-index: 24

최근 멀티모달 대규모 언어 모델(MLLM)이 의료 진단 분야에서 뛰어난 언어 능력을 보여주지만, 최첨단 모델조차도 심각한 인지적 결함, 즉 '기하학적 맹시'를 가지고 있습니다. 이러한 기하학적 정보에 대한 이해 부족은 객관적인 기하학적 제약 조건을 반영하지 못하게 하여, 사실과 다르지만 타당해 보이는 환각 현상을 야기하며, 이는 언어적 유창성을 우선시하는 기존 훈련 방식에서 비롯됩니다. 본 논문에서는 Med-Scout이라는 새로운 프레임워크를 소개합니다. Med-Scout은 강화 학습(RL)을 활용하여, 라벨이 없는 의료 이미지에 내재된 고유한 기하학적 논리를 활용하여 이러한 '맹시'를 극복합니다. Med-Scout은 비용이 많이 드는 전문가의 주석에 의존하는 대신, 세 가지 전략적 프록시 작업을 통해 검증 가능한 지도 신호를 얻습니다: 계층적 크기 위치 추정, 토폴로지 기반 조각 재구성, 이상 감지 일관성 검사. 이러한 인지적 결함을 엄격하게 정량화하기 위해, 기하학적 인지 능력을 평가하기 위해 특별히 설계된 새로운 벤치마크인 Med-Scout-Bench를 제시합니다. 광범위한 실험 결과, Med-Scout은 기하학적 맹시를 크게 완화하며, 당사의 벤치마크에서 선도적인 독점 및 오픈 소스 MLLM보다 40% 이상 우수한 성능을 보였습니다. 또한, 향상된 기하학적 인지는 더 광범위한 의료 이해 능력으로 이어져, 방사선학 및 종합 의료 질의응답(VQA) 작업에서 우수한 결과를 달성했습니다.

Original Abstract

Despite recent Multimodal Large Language Models (MLLMs)' linguistic prowess in medical diagnosis, we find even state-of-the-art MLLMs suffer from a critical perceptual deficit: geometric blindness. This failure to ground outputs in objective geometric constraints leads to plausible yet factually incorrect hallucinations, rooted in training paradigms that prioritize linguistic fluency over geometric fidelity. This paper introduces Med-Scout, a novel framework that "cures" this blindness via Reinforcement Learning (RL) that leverages the intrinsic geometric logic latent within unlabeled medical images. Instead of relying on costly expert annotations, Med-Scout derives verifiable supervision signals through three strategic proxy tasks: Hierarchical Scale Localization, Topological Jigsaw Reconstruction, and Anomaly Consistency Detection. To rigorously quantify this deficit, we present Med-Scout-Bench, a new benchmark specifically designed to evaluate geometric perception. Extensive evaluations show that Med-Scout significantly mitigates geometric blindness, outperforming leading proprietary and open-source MLLMs by over 40% on our benchmark. Furthermore, this enhanced geometric perception generalizes to broader medical understanding, achieving superior results on radiological and comprehensive medical VQA tasks.

0 Citations
0 Influential
12 Altmetric
60.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!