LLMdoctor: 대규모 언어 모델의 효율적인 테스트 시간 정렬을 위한 토큰 수준 플로우 유도 선호 최적화
LLMdoctor: Token-Level Flow-Guided Preference Optimization for Efficient Test-Time Alignment of Large Language Models
대규모 언어 모델(LLM)을 인간의 선호도에 맞춰 정렬하는 것은 매우 중요하지만, 전통적인 미세 조정(fine-tuning) 방법은 계산 비용이 높고 유연성이 떨어진다. 테스트 시간 정렬이 유망한 대안으로 제시되지만, 기존 접근 방식들은 종종 왜곡된 궤적 수준(trajectory-level) 신호나 비효율적인 샘플링에 의존하여 근본적으로 성능을 제한하고 기본 모델의 생성 다양성을 보존하지 못하는 문제가 있다. 본 논문은 환자-의사(patient-doctor) 패러다임을 통해 작동하는 효율적인 테스트 시간 정렬을 위한 새로운 프레임워크인 LLMdoctor를 소개한다. 이 프레임워크는 토큰 수준 보상 획득과 토큰 수준 플로우 유도 선호 최적화(TFPO)를 통합하여, 더 작고 전문화된 의사 모델이 거대하고 동결된(frozen) 환자 LLM을 제어하도록 한다. 궤적 수준 보상에 의존하는 기존 방식과 달리, LLMdoctor는 먼저 환자 모델의 행동 변동에서 세밀한 토큰 수준 선호 신호를 추출한다. 이 신호들은 TFPO를 통해 의사 모델의 훈련을 유도하며, TFPO는 모든 하위 궤적에 걸쳐 플로우 일관성을 확립하여 생성 다양성을 본질적으로 보존하면서 정밀한 토큰 단위 정렬을 가능하게 한다. 광범위한 실험을 통해 LLMdoctor가 기존 테스트 시간 정렬 방법을 크게 능가하며, 심지어 DPO와 같은 전체 미세 조정 접근법의 성능까지 뛰어넘음을 입증하였다.
Aligning Large Language Models (LLMs) with human preferences is critical, yet traditional fine-tuning methods are computationally expensive and inflexible. While test-time alignment offers a promising alternative, existing approaches often rely on distorted trajectory-level signals or inefficient sampling, fundamentally capping performance and failing to preserve the generative diversity of the base model. This paper introduces LLMdoctor, a novel framework for efficient test-time alignment that operates via a patient-doctor paradigm. It integrates token-level reward acquisition with token-level flow-guided preference optimization (TFPO) to steer a large, frozen patient LLM with a smaller, specialized doctor model. Unlike conventional methods that rely on trajectory-level rewards, LLMdoctor first extracts fine-grained, token-level preference signals from the patient model's behavioral variations. These signals then guide the training of the doctor model via TFPO, which establishes flow consistency across all subtrajectories, enabling precise token-by-token alignment while inherently preserving generation diversity. Extensive experiments demonstrate that LLMdoctor significantly outperforms existing test-time alignment methods and even surpasses the performance of full fine-tuning approaches like DPO.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.