Equi-ViT: 회전 불변성 비전 트랜스포머를 이용한 강력한 조직병리학 분석
Equi-ViT: Rotational Equivariant Vision Transformer for Robust Histopathology Analysis
비전 트랜스포머(ViT)는 자기 주의(self-attention)를 통해 장거리 의존성을 모델링하는 능력 덕분에 계산 병리학 분야에서 빠르게 확산되고 있으며, 이는 컨볼루션 신경망의 한계를 극복하는 데 기여합니다. 컨볼루션 신경망은 로컬 패턴을 잘 파악하지만, 전역적인 문맥 추론에는 어려움을 겪습니다. 최근에는 병리학에 특화된 기초 모델이 대규모 사전 학습을 활용하여 성능을 더욱 향상시키고 있습니다. 그러나 표준 ViT는 회전 및 반사와 같은 변환에 대해 본질적으로 불변성을 갖지 않는데, 이는 조직병리학 이미징에서 흔히 나타나는 변화입니다. 이러한 한계를 극복하기 위해, 우리는 ViT 아키텍처의 패치 임베딩 단계에 회전 불변 컨볼루션 커널을 통합한 Equi-ViT를 제안합니다. 이를 통해 학습된 표현에 내재적인 회전 불변성을 부여합니다. Equi-ViT는 우수한 회전 일관성을 갖는 패치 임베딩과 이미지 방향에 따른 안정적인 분류 성능을 달성합니다. 공개된 대장암 데이터셋에 대한 실험 결과는 회전 불변 패치 임베딩이 데이터 효율성과 안정성을 향상시킨다는 것을 보여줍니다. 이러한 결과는 회전 불변 트랜스포머가 디지털 병리학 기초 모델과 같은 조직병리학 분야에서 ViT의 적용을 위한 보다 일반적인 기반 모델이 될 수 있음을 시사합니다.
Vision Transformers (ViTs) have gained rapid adoption in computational pathology for their ability to model long-range dependencies through self-attention, addressing the limitations of convolutional neural networks that excel at local pattern capture but struggle with global contextual reasoning. Recent pathology-specific foundation models have further advanced performance by leveraging large-scale pretraining. However, standard ViTs remain inherently non-equivariant to transformations such as rotations and reflections, which are ubiquitous variations in histopathology imaging. To address this limitation, we propose Equi-ViT, which integrates an equivariant convolution kernel into the patch embedding stage of a ViT architecture, imparting built-in rotational equivariance to learned representations. Equi-ViT achieves superior rotation-consistent patch embeddings and stable classification performance across image orientations. Our results on a public colorectal cancer dataset demonstrate that incorporating equivariant patch embedding enhances data efficiency and robustness, suggesting that equivariant transformers could potentially serve as more generalizable backbones for the application of ViT in histopathology, such as digital pathology foundation models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.