SkinFlow: 동적 시각 인코딩 및 단계별 강화 학습을 활용한 개방형 피부과 진단을 위한 효율적인 정보 전달
SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL
대규모 다중 모드 모델(LVLM)은 방대한 규모에도 불구하고, 종종 '분산된 주의'로 인해 피부과 분야에서 어려움을 겪습니다. 이는 미묘한 병변과 배경 잡음 간의 구분을 어렵게 하기 때문입니다. 본 논문에서는 매개변수 확장이 의료 분야의 정확성을 높이는 유일한 방법이라는 가정에 도전합니다. 우리는 진단을 시각 정보 전달 효율성의 최적화 문제로 간주하는 프레임워크인 SkinFlow를 제안합니다. 우리의 접근 방식은 물리적인 매개변수 확장을 하지 않고 복잡한 병변 공간을 '펼쳐'주는 가상 폭 동적 시각 인코더(DVE)를 사용하며, 이를 두 단계의 강화 학습 전략과 결합합니다. 이 전략은 먼저 명시적인 의료 설명을 정렬하고(1단계), 제한된 의미 공간 내에서 암묵적인 진단 특징을 재구성합니다(2단계). 또한, 우리는 진단 안전성과 계층적 관련성을 우선시하는 임상적으로 타당한 평가 프로토콜을 제안합니다. 실험 결과는 매우 인상적입니다. 우리의 70억 매개변수 모델은 Fitzpatrick17k 벤치마크에서 새로운 최고 성능을 달성했으며, 기존의 대규모 다중 모드 모델(예: Qwen3VL-235B 및 GPT-5.2)에 비해 Top-1 정확도에서 +12.06%, Top-6 정확도에서 +28.57%의 향상을 보였습니다. 이러한 결과는 기하학적 용량과 정보 흐름을 최적화하는 것이 단순한 매개변수 확장에 비해 더 우수한 진단 추론 능력을 제공한다는 것을 보여줍니다.
General-purpose Large Vision-Language Models (LVLMs), despite their massive scale, often falter in dermatology due to "diffuse attention" - the inability to disentangle subtle pathological lesions from background noise. In this paper, we challenge the assumption that parameter scaling is the only path to medical precision. We introduce SkinFlow, a framework that treats diagnosis as an optimization of visual information transmission efficiency. Our approach utilizes a Virtual-Width Dynamic Vision Encoder (DVE) to "unfold" complex pathological manifolds without physical parameter expansion, coupled with a two-stage Reinforcement Learning strategy. This strategy sequentially aligns explicit medical descriptions (Stage I) and reconstructs implicit diagnostic textures (Stage II) within a constrained semantic space. Furthermore, we propose a clinically grounded evaluation protocol that prioritizes diagnostic safety and hierarchical relevance over rigid label matching. Empirical results are compelling: our 7B model establishes a new state-of-the-art on the Fitzpatrick17k benchmark, achieving a +12.06% gain in Top-1 accuracy and a +28.57% boost in Top-6 accuracy over the massive general-purpose models (e.g., Qwen3VL-235B and GPT-5.2). These findings demonstrate that optimizing geometric capacity and information flow yields superior diagnostic reasoning compared to raw parameter scaling.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.