Steer2Adapt: 조향 벡터의 동적 구성을 통한 LLM의 효율적인 적응 유도
Steer2Adapt: Dynamically Composing Steering Vectors Elicits Efficient Adaptation of LLMs
활성화 조향(Activation steering)은 거대언어모델(LLM)을 다운스트림 행동에 효율적으로 적응시키기 위한 유망한 접근 방식으로 부상했습니다. 그러나 기존의 대부분의 조향 방법들은 작업이나 개념당 하나의 정적인 방향에 의존하기 때문에, 작업 변동에 유연하지 못하고 여러 조정된 능력을 필요로 하는 복잡한 작업에는 부적절합니다. 이러한 한계를 해결하기 위해, 우리는 처음부터 새로운 벡터를 학습하는 대신 조향 벡터들을 조합하여 LLM을 적응시키는 경량 프레임워크인 STEER2ADAPT를 제안합니다. 많은 도메인(예: 추론 또는 안전)에서 작업들은 소수의 기저 개념 차원을 공유합니다. STEER2ADAPT는 이러한 차원들을 재사용 가능한 저차원의 의미적 사전 부분공간(semantic prior subspace)으로 포착하며, 소수의 예시만으로 기저 벡터들의 선형 결합을 동적으로 발견하여 새로운 작업에 적응합니다. 추론 및 안전 도메인의 9개 작업과 3개 모델에 걸친 실험은 STEER2ADAPT의 효과를 입증하였으며, 평균 8.2%의 성능 향상을 달성했습니다. 광범위한 분석을 통해 STEER2ADAPT가 LLM을 위한 데이터 효율적이고 안정적이며 투명한 추론 시점 적응 방법임을 추가로 보여줍니다.
Activation steering has emerged as a promising approach for efficiently adapting large language models (LLMs) to downstream behaviors. However, most existing steering methods rely on a single static direction per task or concept, making them inflexible under task variation and inadequate for complex tasks that require multiple coordinated capabilities. To address this limitation, we propose STEER2ADAPT, a lightweight framework that adapts LLMs by composing steering vectors rather than learning new ones from scratch. In many domains (e.g., reasoning or safety), tasks share a small set of underlying concept dimensions. STEER2ADAPT captures these dimensions as a reusable, low-dimensional semantic prior subspace, and adapts to new tasks by dynamically discovering a linear combination of basis vectors from only a handful of examples. Experiments across 9 tasks and 3 models in both reasoning and safety domains demonstrate the effectiveness of STEER2ADAPT, achieving an average improvement of 8.2%. Extensive analyses further show that STEER2ADAPT is a data-efficient, stable, and transparent inference-time adaptation method for LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.