ODESteer: LLM 정렬을 위한 통합된 상미분방정식(ODE) 기반 스티어링 프레임워크
ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment
활성화 스티어링(activation steering) 또는 표현 공학(representation engineering)은 추론 단계에서 대규모 언어 모델(LLM)의 내부 활성화를 조작하여 모델을 정렬하는 경량화된 접근법을 제공한다. 그러나 현재의 방법들은 두 가지 주요 한계를 지닌다: (i) 스티어링 방향 설계를 안내할 통합된 이론적 프레임워크의 부재, (ii) 활성화 분포의 복잡한 패턴을 포착하지 못하는 단일 단계(one-step) 스티어링에 대한 과도한 의존성이다. 본 연구에서는 LLM 정렬의 활성화 스티어링을 위해 상미분방정식(ODE)에 기반한 통합 이론 프레임워크를 제안한다. 우리는 기존의 활성화 덧셈(activation addition)이 ODE 해에 대한 1차 근사(first-order approximation)로 해석될 수 있음을 보여준다. 이러한 ODE 관점을 바탕으로, 스티어링 방향을 식별하는 것은 제어 이론의 장벽 함수(barrier function)를 설계하는 것과 동등해진다. 이 프레임워크를 기반으로 우리는 장벽 함수의 안내를 받는 일종의 ODE 기반 스티어링 기법인 ODESteer를 도입하며, 이는 LLM 정렬에 있어 경험적인 진전을 보여준다. ODESteer는 장벽 함수를 긍정 활성화와 부정 활성화 사이의 로그 밀도비(log-density ratio)로 정의하여 스티어링 방향을 식별하고, 이를 사용하여 다단계(multi-step) 및 적응형 스티어링을 위한 ODE를 구성한다. 최신 활성화 스티어링 방법들과 비교했을 때, ODESteer는 다양한 LLM 정렬 벤치마크에서 일관된 경험적 성능 향상을 달성하며, 특히 TruthfulQA에서 $5.7\%$, UltraFeedback에서 $2.5\%$, RealToxicityPrompts에서 $2.4\%$의 두드러진 개선을 보였다. 본 연구는 ODE를 통해 이론적 기반을 통합하고 제안된 ODESteer 방식을 통해 이를 경험적으로 검증함으로써, LLM 정렬의 활성화 스티어링에 대한 원칙적이고 새로운 관점을 확립한다.
Activation steering, or representation engineering, offers a lightweight approach to align large language models (LLMs) by manipulating their internal activations at inference time. However, current methods suffer from two key limitations: (i) the lack of a unified theoretical framework for guiding the design of steering directions, and (ii) an over-reliance on one-step steering that fail to capture complex patterns of activation distributions. In this work, we propose a unified ordinary differential equations (ODEs)-based theoretical framework for activation steering in LLM alignment. We show that conventional activation addition can be interpreted as a first-order approximation to the solution of an ODE. Based on this ODE perspective, identifying a steering direction becomes equivalent to designing a barrier function from control theory. Derived from this framework, we introduce ODESteer, a kind of ODE-based steering guided by barrier functions, which shows empirical advancement in LLM alignment. ODESteer identifies steering directions by defining the barrier function as the log-density ratio between positive and negative activations, and employs it to construct an ODE for multi-step and adaptive steering. Compared to state-of-the-art activation steering methods, ODESteer achieves consistent empirical improvements on diverse LLM alignment benchmarks, a notable $5.7\%$ improvement over TruthfulQA, $2.5\%$ over UltraFeedback, and $2.4\%$ over RealToxicityPrompts. Our work establishes a principled new view of activation steering in LLM alignment by unifying its theoretical foundations via ODEs, and validating it empirically through the proposed ODESteer method.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.