Mixture of Space Experts를 이용한 LLM의 매개변수 효율적인 미세 조정
Parameter-Efficient Fine-Tuning of LLMs with Mixture of Space Experts
대규모 언어 모델(LLM)은 놀라운 발전을 이루었으며, 매개변수 효율적인 미세 조정(PEFT)은 다양한 하위 작업에 대한 적응을 위한 핵심 기술로 부상했습니다. 그러나 기존의 PEFT 방법은 주로 유클리드 공간에서 작동하며, 이는 언어 데이터에 내재된 복잡한 기하학적 구조를 포착하는 능력을 근본적으로 제한합니다. 계층적 데이터의 경우 쌍곡선 기하학, 원형 패턴의 경우 구면 다양체와 같은 대체 기하학적 공간은 이론적인 이점을 제공하지만, 심지어 학습 가능한 곡률 매개변수를 사용하더라도 표현을 단일 다양체 유형으로 강제하면 표현력을 제한합니다. 이러한 문제를 해결하기 위해, 우리는 여러 기하학적 공간을 동시에 활용하여 더욱 풍부하고 곡률을 고려한 표현을 학습하는 통합 프레임워크인 Mixture of Space (MoS)를 제안합니다. 이 방식을 기반으로, 우리는 다양한 기하학적 전문가를 사용하여 Low-Rank Adaptation (LoRA)를 확장한 MoSLoRA를 개발했습니다. MoSLoRA는 모델이 입력 컨텍스트에 따라 적절한 기하학적 공간을 동적으로 선택하거나 결합할 수 있도록 합니다. 또한, 빈번한 다양체 전환으로 인한 계산 오버헤드를 해결하기 위해 경량 라우팅 메커니즘을 개발했습니다. 더욱이, 우리는 곡률 최적화가 학습 안정성과 모델 성능에 미치는 영향에 대한 경험적 통찰력을 제공합니다. 다양한 벤치마크에서 수행한 실험 결과, MoSLoRA는 강력한 기준 모델보다 일관되게 우수한 성능을 보이며, MATH500에서 최대 5.6%, MAWPS에서 15.9%의 성능 향상을 달성했습니다.
Large Language Models (LLMs) have achieved remarkable progress, with Parameter-Efficient Fine-Tuning (PEFT) emerging as a key technique for downstream task adaptation. However, existing PEFT methods mainly operate in Euclidean space, fundamentally limiting their capacity to capture complex geometric structures inherent in language data. While alternative geometric spaces, like hyperbolic geometries for hierarchical data and spherical manifolds for circular patterns, offer theoretical advantages, forcing representations into a single manifold type ultimately limits expressiveness, even when curvature parameters are learnable. To address this, we propose Mixture of Space (MoS), a unified framework that leverages multiple geometric spaces simultaneously to learn richer, curvature-aware representations. Building on this scheme, we develop MoSLoRA, which extends Low-Rank Adaptation (LoRA) with heterogeneous geometric experts, enabling models to dynamically select or combine appropriate geometric spaces based on input context. Furthermore, to address the computational overhead of frequent manifold switching, we develop a lightweight routing mechanism. Moreover, we provide empirical insights into how curvature optimization impacts training stability and model performance. Our experiments across diverse benchmarks demonstrate that MoSLoRA consistently outperforms strong baselines, achieving up to 5.6% improvement on MATH500 and 15.9% on MAWPS.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.