C^2ROPE: 3D 대규모 다중 모드 모델 추론을 위한 인과적 연속 회전 위치 인코딩
C^2ROPE: Causal Continuous Rotary Positional Encoding for 3D Large Multimodal-Models Reasoning
최근 대규모 언어 모델(LLM)을 기반으로 구축된 3D 대규모 다중 모드 모델(LMM)의 발전은 3D 시각적 특징과 LLM 표현 간의 정렬을 주요 패러다임으로 확립했습니다. 그러나 기존의 회전 위치 임베딩(RoPE)은 다중 모드 처리에 한계를 가져옵니다. 특히, 1차원 시간 위치 인덱스를 적용하면 열 차원 방향으로 시각적 특징의 연속성이 깨져 공간적 국소성이 손실됩니다. 또한, RoPE는 시간적으로 더 가까운 이미지 토큰이 더 인과적으로 관련되어 있다고 가정하며, 이는 어텐션 할당의 장기적인 감소를 초래하고, 시퀀스 길이가 증가함에 따라 모델이 초기의 시각적 토큰을 점진적으로 무시하게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 시각적 처리를 위해 지역적 공간적 연속성과 공간적 인과 관계를 명시적으로 모델링하는 개선된 RoPE인 C^2RoPE를 제안합니다. C^2RoPE는 시각적 토큰을 위한 시공간적 연속 위치 임베딩 메커니즘을 도입합니다. 먼저, 1차원 시간 위치를 데카르트 좌표 기반의 공간 좌표와 통합하여 3개의 하이브리드 위치 인덱스를 구성하고, 그런 다음 주파수 할당 전략을 사용하여 세 가지 인덱스 구성 요소에 걸쳐 시공간적 위치 정보를 인코딩합니다. 또한, 2D 공간에서 이미지 토큰의 체비셰프 거리를 계산하여 인과적 의존성을 결정하는 체비셰프 인과 마스크를 도입합니다. 다양한 벤치마크, 3D 장면 추론 및 3D 시각적 질문 답변을 포함한 평가 결과는 C^2RoPE의 효과성을 입증합니다. 코드는 다음 주소에서 이용 가능합니다: https://github.com/ErikZ719/C2RoPE.
Recent advances in 3D Large Multimodal Models (LMMs) built on Large Language Models (LLMs) have established the alignment of 3D visual features with LLM representations as the dominant paradigm. However, the inherited Rotary Position Embedding (RoPE) introduces limitations for multimodal processing. Specifically, applying 1D temporal positional indices disrupts the continuity of visual features along the column dimension, resulting in spatial locality loss. Moreover, RoPE follows the prior that temporally closer image tokens are more causally related, leading to long-term decay in attention allocation and causing the model to progressively neglect earlier visual tokens as the sequence length increases. To address these issues, we propose C^2RoPE, an improved RoPE that explicitly models local spatial Continuity and spatial Causal relationships for visual processing. C^2RoPE introduces a spatio-temporal continuous positional embedding mechanism for visual tokens. It first integrates 1D temporal positions with Cartesian-based spatial coordinates to construct a triplet hybrid positional index, and then employs a frequency allocation strategy to encode spatio-temporal positional information across the three index components. Additionally, we introduce Chebyshev Causal Masking, which determines causal dependencies by computing the Chebyshev distance of image tokens in 2D space. Evaluation results across various benchmarks, including 3D scene reasoning and 3D visual question answering, demonstrate C^2RoPE's effectiveness. The code is be available at https://github.com/ErikZ719/C2RoPE.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.