MambaBack: 전체 슬라이드 이미지 분석에서 로컬 특징과 글로벌 컨텍스트를 연결하는 방법
MambaBack: Bridging Local Features and Global Contexts in Whole Slide Image Analysis
전체 슬라이드 이미지(WSI) 분석은 계산 병리학에서 중요한 역할을 하며, 다양한 배율에서 형태 및 구조적 단서를 통합하여 암 진단을 가능하게 합니다. 다중 인스턴스 학습(MIL)은 WSI 분석의 표준 프레임워크로 사용됩니다. 최근, Mamba는 효율성과 자연어 처리(NLP)에서 비롯된 글로벌 컨텍스트 모델링 능력으로 인해 트랜스포머를 능가하며 MIL의 유망한 기반 모델로 떠오르고 있습니다. 그러나 기존의 Mamba 기반 MIL 방법은 다음과 같은 세 가지 중요한 과제에 직면합니다. (1) 1차원 시퀀스로 평면화하는 과정에서 2차원 공간적 지역성이 파괴되는 문제, (2) 미세한 수준의 국소 세포 구조 모델링의 최적화 문제, (3) 리소스가 제한된 엣지 장치에서의 추론 시 발생하는 높은 메모리 사용량 문제입니다. MambaOut과 같은 연구는 Mamba의 SSM 구성 요소가 로컬 특징 추출에 불필요하며, 게이티드 CNN만으로 충분하다는 것을 보여줍니다. 본 연구에서는 WSI 분석이 자연 이미지와 유사한 미세한 수준의 로컬 특징 추출과 NLP와 유사한 글로벌 컨텍스트 모델링을 모두 요구한다는 점을 인식하고, Mamba와 MambaOut의 장점을 조화시키는 새로운 하이브리드 아키텍처인 MambaBack을 제안합니다. 첫째, 1차원 시퀀스 내의 타일의 2차원 공간적 지역성을 유지하기 위해 힐베르트 샘플링 전략을 제안하여 모델의 공간 인지 능력을 향상시킵니다. 둘째, MambaOut을 기반으로 한 1차원 게이티드 CNN 블록을 사용하여 국소 세포 특징을 캡처하고, BiMamba2 블록을 사용하여 글로벌 컨텍스트를 집계하여 다중 스케일 표현을 공동으로 향상시키는 계층적 구조를 설계합니다. 마지막으로, 비대칭 청킹 설계를 구현하여 학습 시 병렬 처리를 가능하게 하고, 추론 시 청킹-스트리밍 누적을 통해 메모리 피크 사용량을 최소화하여 배포를 용이하게 합니다. 다섯 가지 데이터 세트에 대한 실험 결과는 MambaBack이 최첨단 방법 7가지보다 우수한 성능을 보임을 보여줍니다. 소스 코드 및 데이터 세트는 공개적으로 제공됩니다.
Whole Slide Image (WSI) analysis is pivotal in computational pathology, enabling cancer diagnosis by integrating morphological and architectural cues across magnifications. Multiple Instance Learning (MIL) serves as the standard framework for WSI analysis. Recently, Mamba has become a promising backbone for MIL, overtaking Transformers due to its efficiency and global context modeling capabilities originating from Natural Language Processing (NLP). However, existing Mamba-based MIL approaches face three critical challenges: (1) disruption of 2D spatial locality during 1D sequence flattening; (2) sub-optimal modeling of fine-grained local cellular structures; and (3) high memory peaks during inference on resource-constrained edge devices. Studies like MambaOut reveal that Mamba's SSM component is redundant for local feature extraction, where Gated CNNs suffice. Recognizing that WSI analysis demands both fine-grained local feature extraction akin to natural images, and global context modeling akin to NLP, we propose MambaBack, a novel hybrid architecture that harmonizes the strengths of Mamba and MambaOut. First, we propose the Hilbert sampling strategy to preserve the 2D spatial locality of tiles within 1D sequences, enhancing the model's spatial perception. Second, we design a hierarchical structure comprising a 1D Gated CNN block based on MambaOut to capture local cellular features, and a BiMamba2 block to aggregate global context, jointly enhancing multi-scale representation. Finally, we implement an asymmetric chunking design, allowing parallel processing during training and chunking-streaming accumulation during inference, minimizing peak memory usage for deployment. Experimental results on five datasets demonstrate that MambaBack outperforms seven state-of-the-art methods. Source code and datasets are publicly available.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.