2603.07404v1 Mar 08, 2026 cs.RO

비전-언어-액션 모델의 미세 조정에 대한 적응적 용량 할당

Adaptive Capacity Allocation for Vision Language Action Fine-tuning

Donghoon Kim
Donghoon Kim
Citations: 2
h-index: 1
Min-Cheul Bae
Min-Cheul Bae
Citations: 2
h-index: 1
Unghui Nam
Unghui Nam
Citations: 2
h-index: 1
Gyeonghun Kim
Gyeonghun Kim
Citations: 424
h-index: 5
Kyuhong Shim
Kyuhong Shim
Citations: 479
h-index: 10
B. Shim
B. Shim
Citations: 8,362
h-index: 46
Suyun Lee
Suyun Lee
Citations: 6
h-index: 2

비전-언어-액션(VLA) 모델은 물리적 인공지능 분야에서 점점 더 많이 사용되고 있지만, 사전 훈련된 VLA 모델을 새로운 환경, 로봇 플랫폼 또는 작업에 적용하려면 여전히 적응 과정이 필요합니다. 파라미터 효율적인 미세 조정(PEFT), 특히 LoRA는 VLA 정책에 일반적으로 사용되지만, 노출된 용량 제어 변수인 '랭크'는 균일하게 적용되지 않습니다. 로봇 분야의 이전 학습은 언어 미세 조정보다 더 높은, 작업에 따라 달라지는 고유한 랭크를 보입니다. LLM의 경우 작은 랭크로 충분합니다(예: r ∈ {4, 8}), 하지만 스펙트럼 분석 결과, VLA는 훨씬 더 큰 랭크(예: r ≈ 128) 또는 거의 전체 랭크를 필요로 할 수 있으며, 이는 멀티태스크 환경에서 더욱 악화됩니다. 본 논문에서는 입력 및 레이어별 용량을 활용하는 랭크 적응 미세 조정 방법인 LoRA-SP (Select-Prune)를 제안합니다. LoRA-SP는 고정된 랭크 업데이트를 대체하며, 작은 라우터를 사용하여 공유된 벡터 뱅크에 대한 음수가 아닌 점수가 특이값으로 작용하는 SVD 스타일의 파라미터화를 사용합니다. 활성 집합은 누적 제곱 점수의 에너지 목표 E(k) ≧ η를 기준으로 선택되며, 이는 우리의 스펙트럼 분석을 통해 근사 오차와 직접적인 연관성을 가집니다. 학습 과정에서 η는 에너지를 몇 개의 방향으로 집중시키고, 라우터가 더 적은 벡터에 의존하도록 학습하여 정확도를 유지합니다. 이를 통해 상호 작업 간섭을 줄이고 일반화 성능을 향상시키는 소형 어댑터를 얻을 수 있습니다. 실제 AgileX PiPER 로봇 팔에서 수집된 네 가지 로봇 조작 작업에서, 두 가지 VLA 백본(π₀ 및 SmolVLA)을 사용하여 LoRA-SP는 전체 미세 조정과 동등하거나 뛰어난 성능을 보이며, 훨씬 적은 수의 학습 가능한 파라미터를 사용합니다. 또한 LoRA-SP는 표준 LoRA보다 멀티태스크 성공률을 최대 31.6% 향상시키면서 랭크 선택에 강건한 성능을 유지합니다.

Original Abstract

Vision language action models (VLAs) are increasingly used for Physical AI, but deploying a pre-trained VLA model to unseen environments, embodiments, or tasks still requires adaptation. Parameter-efficient fine-tuning (PEFT), especially LoRA, is common for VLA policies, yet the exposed capacity knob, the rank, does not transfer uniformly: robotics transfer exhibits a higher and task-varying intrinsic rank than language fine-tuning. Small ranks suffice for LLMs (e.g., $r \in \{4, 8\}$), while spectral analyses indicate VLAs may require much larger ranks (e.g., $r \approx 128$) or near-full rank, a mismatch that worsens in multi-task settings. We present LoRA-SP (Select-Prune), a rank-adaptive fine-tuning method that replaces fixed-rank updates with input- and layer-wise capacity. LoRA-SP uses an SVD-style parameterization with a small router whose nonnegative scores act as singular values over a shared vector bank. The active set is chosen by an energy target on the cumulative squared scores $E(k) \ge η$, providing a direct link to approximation error via our spectral analysis. During training, $η$ concentrates energy on a few directions and teaches the router to rely on fewer vectors while preserving accuracy. This yields compact adapters that reduce cross-task interference and improve generalization. On four real-robot manipulation tasks collected on an unseen AgileX PiPER arm, across two VLA backbones ($π_0$ and SmolVLA), LoRA-SP matches or exceeds full fine-tuning with far fewer trainable parameters, and improves multi-task success by up to 31.6% over standard LoRA while remaining robust to rank choice.

2 Citations
0 Influential
23 Altmetric
117.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!