ODESteer: LLM 정렬을 위한 통합 ODE 기반 스티어링 프레임워크
ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment
활성화 스티어링(Activation steering) 또는 표현 공학(representation engineering)은 추론 시간에 내부 활성화를 조작하여 대형 언어 모델(LLM)을 정렬하는 경량화된 접근법을 제공한다. 그러나 현재의 방법들은 두 가지 주요 한계를 겪고 있다: \textit{(i)} 스티어링 방향의 설계를 안내할 통합된 이론적 프레임워크의 부재, 그리고 \textit{(ii)} 활성화 분포의 복잡한 패턴을 포착하지 못하는 \textit{단일 단계 스티어링(one-step steering)}에 대한 과도한 의존이다. 본 연구에서는 LLM 정렬의 활성화 스티어링을 위한 통합 상미분방정식(ODE) 기반의 \textit{이론적} 프레임워크를 제안한다. 우리는 기존의 활성화 덧셈(activation addition)이 ODE 해에 대한 1차 근사(first-order approximation)로 해석될 수 있음을 보여준다. 이러한 ODE 관점에 기반할 때, 스티어링 방향을 식별하는 것은 제어 이론의 \textit{장벽 함수(barrier function)}를 설계하는 것과 동일해진다. 이 프레임워크에서 도출하여, 우리는 장벽 함수가 안내하는 일종의 ODE 기반 스티어링인 ODESteer를 소개하며, 이는 LLM 정렬에서 \textit{경험적} 진전을 보여준다. ODESteer는 장벽 함수를 긍정적 활성화와 부정적 활성화 사이의 로그 밀도 비(log-density ratio)로 정의하여 스티어링 방향을 식별하고, 이를 사용하여 \textit{다단계 및 적응형(multi-step and adaptive)} 스티어링을 위한 ODE를 구성한다. 최첨단 활성화 스티어링 방법들과 비교하여, ODESteer는 다양한 LLM 정렬 벤치마크에서 일관된 경험적 성능 향상을 달성하며, 특히 TruthfulQA에서 $5.7\%$, UltraFeedback에서 $2.5\%$, RealToxicityPrompts에서 $2.4\%$의 주목할 만한 향상을 기록했다. 본 연구는 ODE를 통해 이론적 기반을 통합하고 제안된 ODESteer 방법을 통해 이를 경험적으로 검증함으로써, LLM 정렬에 있어 활성화 스티어링에 대한 원칙적이고 새로운 관점을 확립한다.
Activation steering, or representation engineering, offers a lightweight approach to align large language models (LLMs) by manipulating their internal activations at inference time. However, current methods suffer from two key limitations: \textit{(i)} the lack of a unified theoretical framework for guiding the design of steering directions, and \textit{(ii)} an over-reliance on \textit{one-step steering} that fail to capture complex patterns of activation distributions. In this work, we propose a unified ordinary differential equations (ODEs)-based \textit{theoretical} framework for activation steering in LLM alignment. We show that conventional activation addition can be interpreted as a first-order approximation to the solution of an ODE. Based on this ODE perspective, identifying a steering direction becomes equivalent to designing a \textit{barrier function} from control theory. Derived from this framework, we introduce ODESteer, a kind of ODE-based steering guided by barrier functions, which shows \textit{empirical} advancement in LLM alignment. ODESteer identifies steering directions by defining the barrier function as the log-density ratio between positive and negative activations, and employs it to construct an ODE for \textit{multi-step and adaptive} steering. Compared to state-of-the-art activation steering methods, ODESteer achieves consistent empirical improvements on diverse LLM alignment benchmarks, a notable $5.7\%$ improvement over TruthfulQA, $2.5\%$ over UltraFeedback, and $2.4\%$ over RealToxicityPrompts. Our work establishes a principled new view of activation steering in LLM alignment by unifying its theoretical foundations via ODEs, and validating it empirically through the proposed ODESteer method.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.