GeoMotionGPT: 기하학적 정렬 기반의 대규모 언어 모델을 활용한 동작 이해
GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models
최근에는 이산적인 동작 토큰화 기술을 통해 대규모 언어 모델(LLM)이 동작 이해 및 동작-언어 추론을 위한 다재다능한 기반 모델로 활용될 수 있게 되었습니다. 그러나 기존의 파이프라인은 일반적으로 동작 양자화와 의미론적 임베딩 학습을 분리하여 처리하고, 토큰 ID를 통해서만 연결합니다. 이러한 접근 방식은 동작 공간의 고유한 기하학적 구조와 임베딩 공간을 효과적으로 정렬하지 못하여 LLM의 정교한 동작 추론 능력을 저해합니다. 우리는 정렬이 가장 효과적인 시점은 두 모달리티가 통합된 기하학적 기반을 공유할 때라고 주장합니다. 따라서, LLM이 동작 토큰 간의 복잡한 기하학적 관계를 처음부터 재구성하도록 강제하는 대신, 우리는 동작 코드북과 LLM 임베딩 공간 모두에 명시적으로 직교성을 강제하는 새로운 프레임워크를 제시합니다. 이를 통해 두 공간의 관계 구조가 자연스럽게 서로를 반영하도록 합니다. 구체적으로, 우리는 미분 가능한 학습과 균형 잡힌 코드북 사용을 위해 Gumbel-Softmax를 사용하는 디코더 전용 양자화기를 사용합니다. 모달리티 간의 연결을 위해, 우리는 동작 코드를 LLM 임베딩 공간으로 매핑하면서 직교성을 유지하는 희소 투영을 사용합니다. 마지막으로, 양방향 정규화 스케줄을 사용하여 토큰화 학습 및 LLM 미세 조정 중에 소프트 제약을 적용하여, 의미론적 적응을 저해하지 않으면서 기하학적 정렬을 유지합니다. HumanML3D 데이터셋에 대한 광범위한 실험 결과, 우리의 프레임워크가 현재 최고 성능을 보이는 방법보다 20%의 성능 향상을 달성했으며, 이는 통합된 기하학적 기반이 LLM의 정교한 동작 추론 능력을 효과적으로 향상시킨다는 것을 입증합니다.
Discrete motion tokenization has recently enabled Large Language Models (LLMs) to serve as versatile backbones for motion understanding and motion-language reasoning. However, existing pipelines typically decouple motion quantization from semantic embedding learning, linking them solely via token IDs. This approach fails to effectively align the intrinsic geometry of the motion space with the embedding space, thereby hindering the LLM's capacity for nuanced motion reasoning. We argue that alignment is most effective when both modalities share a unified geometric basis. Therefore, instead of forcing the LLM to reconstruct the complex geometry among motion tokens from scratch, we present a novel framework that explicitly enforces orthogonality on both the motion codebook and the LLM embedding space, ensuring that their relational structures naturally mirror each other. Specifically, we employ a decoder-only quantizer with Gumbel-Softmax for differentiable training and balanced codebook usage. To bridge the modalities, we use a sparse projection that maps motion codes into the LLM embedding space while preserving orthogonality. Finally, a two-stage orthonormal regularization schedule enforces soft constraints during tokenizer training and LLM fine-tuning to maintain geometric alignment without hindering semantic adaptation. Extensive experiments on HumanML3D demonstrate that our framework achieves a 20% performance improvement over current state-of-the-art methods, validating that a unified geometric basis effectively empowers the LLM for nuanced motion reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.