PathMem: 병리학 LLM을 위한 인지적 연관성을 갖는 메모리 변환
PathMem: Toward Cognition-Aligned Memory Transformation for Pathology MLLMs
컴퓨터 기반 병리학은 시각적 패턴 인식과 분류, 등급 기준 및 임상 증거를 포함한 구조화된 전문 지식의 동적 통합을 모두 요구합니다. 실제 진단 과정에서는 형태학적 증거를 공식적인 진단 및 등급 기준과 연결해야 합니다. 다중 모드 대규모 언어 모델(MLLM)은 강력한 시각-언어 추론 능력을 보여주지만, 구조화된 지식 통합을 위한 명시적인 메커니즘과 해석 가능한 메모리 제어 기능을 갖추고 있지 않습니다. 그 결과, 기존 모델은 추론 과정에서 병리학 특유의 진단 기준을 일관되게 통합하는 데 어려움을 겪습니다. 인간 병리학자의 계층적 메모리 과정을 모방하여, 우리는 병리학 MLLM을 위한 메모리 중심의 다중 모드 프레임워크인 PathMem을 제안합니다. PathMem은 구조화된 병리학 지식을 장기 기억(LTM)으로 구성하고, 다중 모드 메모리 활성화 및 상황 인식 기반 지식 연결을 통해 LTM에서 작업 기억(WM)으로의 동적 전환을 모델링하는 메모리 트랜스포머를 도입합니다. 이를 통해 상황 인식 기반의 메모리 개선을 통해 후속 추론을 가능하게 합니다. PathMem은 다양한 벤치마크에서 최고 성능을 달성했으며, WSI-Bench 보고서 생성 성능을 WSI 정밀도 12.8%, WSI 관련성 10.1% 향상시키고, 기존 WSI 기반 모델 대비 개방형 진단 성능을 각각 9.7% 및 8.9% 향상시켰습니다.
Computational pathology demands both visual pattern recognition and dynamic integration of structured domain knowledge, including taxonomy, grading criteria, and clinical evidence. In practice, diagnostic reasoning requires linking morphological evidence with formal diagnostic and grading criteria. Although multimodal large language models (MLLMs) demonstrate strong vision language reasoning capabilities, they lack explicit mechanisms for structured knowledge integration and interpretable memory control. As a result, existing models struggle to consistently incorporate pathology-specific diagnostic standards during reasoning. Inspired by the hierarchical memory process of human pathologists, we propose PathMem, a memory-centric multimodal framework for pathology MLLMs. PathMem organizes structured pathology knowledge as a long-term memory (LTM) and introduces a Memory Transformer that models the dynamic transition from LTM to working memory (WM) through multimodal memory activation and context-aware knowledge grounding, enabling context-aware memory refinement for downstream reasoning. PathMem achieves SOTA performance across benchmarks, improving WSI-Bench report generation (12.8% WSI-Precision, 10.1% WSI-Relevance) and open-ended diagnosis by 9.7% and 8.9% over prior WSI-based models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.