2601.09136v1 Jan 14, 2026 cs.CV

SkinFlow: 동적 시각 인코딩 및 단계별 강화 학습을 활용한 개방형 피부과 진단을 위한 효율적인 정보 전달

SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

Hong Zhou
Hong Zhou
Citations: 174
h-index: 7
Zhaocheng Liu
Zhaocheng Liu
Citations: 10
h-index: 1
Lijun Liu
Lijun Liu
Citations: 1
h-index: 1
Linwei Chen
Linwei Chen
Beijing Institute of Technology
Citations: 737
h-index: 11
Zhishou Zhang
Zhishou Zhang
Citations: 34
h-index: 2
Meng Tian
Meng Tian
Citations: 119
h-index: 4
Hengfu Cui
Hengfu Cui
Citations: 34
h-index: 2
Ruiyang Li
Ruiyang Li
Citations: 1
h-index: 1
Q. Ju
Q. Ju
Citations: 2
h-index: 1
Qianxi Li
Qianxi Li
Citations: 5
h-index: 2

대규모 다중 모드 모델(LVLM)은 방대한 규모에도 불구하고, 종종 '분산된 주의'로 인해 피부과 분야에서 어려움을 겪습니다. 이는 미묘한 병변과 배경 잡음 간의 구분을 어렵게 하기 때문입니다. 본 논문에서는 매개변수 확장이 의료 분야의 정확성을 높이는 유일한 방법이라는 가정에 도전합니다. 우리는 진단을 시각 정보 전달 효율성의 최적화 문제로 간주하는 프레임워크인 SkinFlow를 제안합니다. 우리의 접근 방식은 물리적인 매개변수 확장을 하지 않고 복잡한 병변 공간을 '펼쳐'주는 가상 폭 동적 시각 인코더(DVE)를 사용하며, 이를 두 단계의 강화 학습 전략과 결합합니다. 이 전략은 먼저 명시적인 의료 설명을 정렬하고(1단계), 제한된 의미 공간 내에서 암묵적인 진단 특징을 재구성합니다(2단계). 또한, 우리는 진단 안전성과 계층적 관련성을 우선시하는 임상적으로 타당한 평가 프로토콜을 제안합니다. 실험 결과는 매우 인상적입니다. 우리의 70억 매개변수 모델은 Fitzpatrick17k 벤치마크에서 새로운 최고 성능을 달성했으며, 기존의 대규모 다중 모드 모델(예: Qwen3VL-235B 및 GPT-5.2)에 비해 Top-1 정확도에서 +12.06%, Top-6 정확도에서 +28.57%의 향상을 보였습니다. 이러한 결과는 기하학적 용량과 정보 흐름을 최적화하는 것이 단순한 매개변수 확장에 비해 더 우수한 진단 추론 능력을 제공한다는 것을 보여줍니다.

Original Abstract

General-purpose Large Vision-Language Models (LVLMs), despite their massive scale, often falter in dermatology due to "diffuse attention" - the inability to disentangle subtle pathological lesions from background noise. In this paper, we challenge the assumption that parameter scaling is the only path to medical precision. We introduce SkinFlow, a framework that treats diagnosis as an optimization of visual information transmission efficiency. Our approach utilizes a Virtual-Width Dynamic Vision Encoder (DVE) to "unfold" complex pathological manifolds without physical parameter expansion, coupled with a two-stage Reinforcement Learning strategy. This strategy sequentially aligns explicit medical descriptions (Stage I) and reconstructs implicit diagnostic textures (Stage II) within a constrained semantic space. Furthermore, we propose a clinically grounded evaluation protocol that prioritizes diagnostic safety and hierarchical relevance over rigid label matching. Empirical results are compelling: our 7B model establishes a new state-of-the-art on the Fitzpatrick17k benchmark, achieving a +12.06% gain in Top-1 accuracy and a +28.57% boost in Top-6 accuracy over the massive general-purpose models (e.g., Qwen3VL-235B and GPT-5.2). These findings demonstrate that optimizing geometric capacity and information flow yields superior diagnostic reasoning compared to raw parameter scaling.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!