SkinGPT-X: 투명하고 신뢰할 수 있는 피부과 진단을 위한 자기 진화형 협업 멀티 에이전트 시스템
SkinGPT-X: A Self-Evolving Collaborative Multi-Agent System for Transparent and Trustworthy Dermatological Diagnosis
최근 대규모 언어 모델(LLM)의 발전은 피부과 진단에 상당한 진전을 가져왔지만, 단일 모델 기반의 LLM은 종종 훈련 데이터의 희소성으로 인해 세분화되고 대규모의 다중 분류 진단 작업과 희귀 피부 질환 진단에 어려움을 겪으며, 또한 임상적 추론에 필수적인 해석 가능성과 추적 가능성이 부족합니다. 멀티 에이전트 시스템은 보다 투명하고 설명 가능한 진단을 제공할 수 있지만, 기존 프레임워크는 주로 시각 질의 응답 및 대화형 작업에 집중되어 있으며, 정적인 지식 기반에 대한 과도한 의존성은 복잡한 실제 임상 환경에서의 적응성을 제한합니다. 본 연구에서는 자기 진화형 피부과 기억 메커니즘이 통합된 다중 모드 협업 멀티 에이전트 시스템인 SkinGPT-X를 제시합니다. SkinGPT-X는 피부과 의사의 진단 워크플로우를 시뮬레이션하고 지속적인 기억 진화를 가능하게 하여 복잡하고 희귀한 피부 질환 사례에 대한 투명하고 신뢰할 수 있는 진단을 제공합니다. SkinGPT-X의 견고성을 검증하기 위해 세 단계의 비교 실험을 설계했습니다. 첫째, SkinGPT-X를 최첨단 LLM 4개와 4개의 공개 데이터 세트를 사용하여 비교하여 DDI31 데이터 세트에서 +9.6%의 정확도 향상, Dermnet 데이터 세트에서 +13%의 가중 F1 점수 향상을 보여 최첨단 성능을 달성했습니다. 둘째, 498개의 서로 다른 피부과 범주를 포괄하는 대규모 다중 분류 데이터 세트를 구축하여 세분화된 분류 능력을 평가했습니다. 마지막으로, 임상적 희귀 피부 질환의 부족 문제를 해결하기 위한 첫 번째 벤치마크인 564개의 임상 샘플과 8개의 희귀 피부 질환을 포함하는 희귀 피부 질환 데이터 세트를 구성했습니다. 이 데이터 세트에서 SkinGPT-X는 +9.8%의 정확도 향상, +7.1%의 가중 F1 점수 향상, +10%의 Cohen's Kappa 점수 향상을 달성했습니다.
While recent advancements in Large Language Models have significantly advanced dermatological diagnosis, monolithic LLMs frequently struggle with fine-grained, large-scale multi-class diagnostic tasks and rare skin disease diagnosis owing to training data sparsity, while also lacking the interpretability and traceability essential for clinical reasoning. Although multi-agent systems can offer more transparent and explainable diagnostics, existing frameworks are primarily concentrated on Visual Question Answering and conversational tasks, and their heavy reliance on static knowledge bases restricts adaptability in complex real-world clinical settings. Here, we present SkinGPT-X, a multimodal collaborative multi-agent system for dermatological diagnosis integrated with a self-evolving dermatological memory mechanism. By simulating the diagnostic workflow of dermatologists and enabling continuous memory evolution, SkinGPT-X delivers transparent and trustworthy diagnostics for the management of complex and rare dermatological cases. To validate the robustness of SkinGPT-X, we design a three-tier comparative experiment. First, we benchmark SkinGPT-X against four state-of-the-art LLMs across four public datasets, demonstrating its state-of-the-art performance with a +9.6% accuracy improvement on DDI31 and +13% weighted F1 gain on Dermnet over the state-of-the-art model. Second, we construct a large-scale multi-class dataset covering 498 distinct dermatological categories to evaluate its fine-grained classification capabilities. Finally, we curate the rare skin disease dataset, the first benchmark to address the scarcity of clinical rare skin diseases which contains 564 clinical samples with eight rare dermatological diseases. On this dataset, SkinGPT-X achieves a +9.8% accuracy improvement, a +7.1% weighted F1 improvement, a +10% Cohen's Kappa improvement.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.