SaiVLA-0: 계산 효율성을 고려한 시각-언어-행동 모델을 위한 대뇌-뇌교-소뇌 삼위 구조
SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action
본 연구에서는 신경과학에서 영감을 받은 삼위 구조를 통해 시각-언어-행동 모델을 재검토합니다. 생물학적으로, 대뇌는 안정적인 고수준의 다중 모드 정보를 제공하며 고정되어 있습니다. 뇌교 어댑터는 이러한 대뇌 특징과 실시간 고유수용성 입력을 통합하여 의도를 실행 가능한 토큰으로 변환합니다. 그리고 소뇌(ParaCAT)는 빠른 병렬 범주형 디코딩을 통해 실시간 제어를 수행하며, 안정성을 위해 히스테리시스, EMA(지수 이동 평균), 온도 및 엔트로피를 사용합니다. 고정 비율 스케줄과 2단계 특징 캐싱을 통해 시스템의 계산 효율성을 높이고 재현성을 확보했습니다. 능동적이고 망막 중심부의 시각에서 영감을 받아, 손목 영역(ROI)은 교정된 투영을 통해 최종 작동 장치와 기하학적으로 연결되어 있어, 미세한 자세 변화에 민감하고 전체적인 맥락을 보완하는 고해상도 시야를 제공하며 움직임을 안정화합니다. 본 설계는 모듈화되어 있습니다. 대뇌를 업그레이드하는 경우 뇌교만 재학습하면 되고, 로봇을 변경하는 경우 소뇌만 재학습하면 됩니다. 소뇌만 사용하는 강화 학습(RL)을 통해 고급 의미론에 영향을 주지 않고 제어를 더욱 개선할 수 있습니다. 본 연구는 개념 및 프로토콜 연구로서, 예상되는 효율성 향상을 검증하기 위해 일치된 조건(GPU, 해상도, 배치) 하에서 타이밍 프로토콜을 제시합니다. 또한, 초기 LIBERO 데이터를 통해 분할된 특징 캐싱이 학습 시간을 단축시키고(7.5시간에서 4.5시간으로) 평균 성공률을 향상시킨다는 것을 확인했습니다(86.5%에서 92.5%로). 또한, SaiVLA0은 평균 성공률 99.0%를 달성했습니다.
We revisit Vision-Language-Action through a neuroscience-inspired triad. Biologically, the Cerebrum provides stable high-level multimodal priors and remains frozen; the Pons Adapter integrates these cortical features with real-time proprioceptive inputs and compiles intent into execution-ready tokens; and the Cerebellum (ParaCAT) performs fast, parallel categorical decoding for online control, with hysteresis/EMA/temperature/entropy for stability. A fixed-ratio schedule and two-stage feature caching make the system compute-aware and reproducible. Inspired by active, foveated vision, our wrist ROIs are geometrically tied to the end-effector via calibrated projection, providing a movement-stabilized, high-resolution view that is sensitive to fine-grained pose changes and complements the global context of the main view. The design is modular: upgrading the Cerebrum only retrains the Pons; changing robots only trains the Cerebellum; cerebellum-only RL can further refine control without touching high-level semantics. As a concept-and-protocol paper with preliminary evidence, we outline a timing protocol under matched conditions (GPU, resolution, batch) to verify anticipated efficiency gains. We also report preliminary LIBERO evidence showing that split feature caching reduces training time (7.5h to 4.5h) and improves average success (86.5% to 92.5%) under official N1.5 head-only training, and that SaiVLA0 reaches 99.0% mean success.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.