ECLIPTICA: CITA를 이용한 전환 가능한 LLM 정렬 프레임워크
ECLIPTICA -- A Framework for Switchable LLM Alignment via CITA - Contrastive Instruction-Tuned Alignment
대규모 언어 모델(LLM)의 정렬은 현재 대부분 정적인 방식으로 이루어집니다. 훈련 후에는 정책이 고정되어 있으며, 프롬프트 조작이나 비용이 많이 드는 재정렬 외에는 런타임 제어가 거의 없습니다. 본 논문에서는 ECLIPTICA를 소개합니다. ECLIPTICA는 정렬을 지침 기반으로 만들고 런타임 제어가 가능하도록 합니다. 자연어 정렬 지침은 명시적인 행동 계약(태도, 거부 기준, 상세 정도)으로 작용하며, 이는 변화하는 안전 요구 사항, 사용자 역할 및 거버넌스 제약 조건에 따라 실시간으로 행동을 조절합니다. 본 논문에서는 CITA(Contrastive Instruction-Tuned Alignment)를 소개합니다. CITA는 명시적인 참조 모델에 대한 기하학적 기준점 하에서 지도 학습(SFT)과 대비적 선호도 최적화를 결합합니다. 이를 통해 안정적인 리만 차트를 생성하고 지침 업데이트를 공유된 이웃 내에 유지하여, 다양한 정렬 모드를 안정적으로 전환할 수 있습니다. 정책 전환과 일반적인 지침 따르기를 분리하기 위해, ECLIPTICA 벤치마크를 공개합니다. 이 벤치마크는 3,000개의 제어된 사례(300개의 프롬프트 x 10개의 지침 유형)로 구성되어 있으며, 사용자 요청은 고정되고 정렬 지침만 변경됩니다. Llama-3.1-8B 모델을 사용하여 ECLIPTICA, TruthfulQA, Conditional Safety, Length Control, LITMUS의 5가지 평가 세트에서 CITA는 86.7%의 지침 정렬 효율성을 달성하여, DPO(56.1%), GRPO(36.1%), PPO(20.4%)를 능가했습니다.
Alignment in large language models (LLMs) is still largely static: after training, the policy is frozen. DPO, GRPO methods typically imprint one behavior into the weights, leaving little runtime control beyond prompt hacks or expensive re-alignment. We introduce ECLIPTICA, which treats alignment as instruction-driven and runtime-controllable: natural-language alignment instructions act as an explicit behavioral contract (stance, refusal boundary, verbosity) that modulates behavior on the fly under evolving safety requirements, user roles, and governance constraints. We introduce CITA (Contrastive Instruction-Tuned Alignment), combining SFT with contrastive preference optimization under an explicit geometric anchor to a reference model. This yields a stable Riemannian chart and keeps instruction updates within a shared neighborhood, so regimes stay nearby and traversable for reliable switching. To isolate policy switching from ordinary instruction following, we release the ECLIPTICA benchmark: 3000 controlled cases (300 prompts x 10 instruction types) where the user request is fixed and only the alignment instruction changes. On Llama-3.1-8B across five suites (ECLIPTICA, TruthfulQA, Conditional Safety, Length Control, LITMUS), CITA reaches 86.7% instruction-alignment efficiency, beating DPO (56.1%), GRPO (36.1%), and PPO (20.4%).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.