VISA: 차단된 적응을 통한 값 주입을 활용한 개인 맞춤형 LLM 정렬
VISA: Value Injection via Shielded Adaptation for Personalized LLM Alignment
대규모 언어 모델(LLM)을 미묘한 인간 가치에 맞춰 정렬하는 것은 여전히 중요한 과제이며, 강화 학습 기반 인간 피드백(RLHF)과 같은 기존 방법은 종종 세부적인 속성만 처리합니다. 실제로, 특정 작업에 맞는 데이터 세트를 사용하여 LLM을 미세 조정하면 가치 정렬을 최적화하지만, 필연적으로 '정렬 비용'이 발생합니다. 이는 모델의 사전 설정된 가치 시스템이 학습 데이터에서 잠재적인 편향을 흡수하여 크게 변동하고, 미세 조정 과정에서 생성된 응답에서 심각한 환각 현상과 의미 정보 손실이 발생하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 '정렬 비용'을 해결하기 위한 폐쇄 루프 프레임워크인 VISA(Value Injection via Shielded Adaptation)를 제안합니다. VISA는 고정밀 가치 감지기, 의미-가치 변환기, 핵심 가치 재작성기로 구성된 아키텍처를 특징으로 합니다. 가치 재작성기는 그룹 상대 정책 최적화(GRPO)를 통해 학습되며, 세분화된 가치 정확성과 생성된 응답의 의미적 완전성을 동시에 최적화하는 복합 보상 함수를 사용합니다. VISA는 이러한 상반되는 목표를 균형 있게 조정하는 최적의 정책을 학습하여 '정렬 비용'을 효과적으로 줄이면서 원래 지식을 유지합니다. 우리의 실험 결과는 이 접근 방식이 모델의 가치 표현을 정밀하게 제어하면서 사실 일관성과 일반적인 기능을 유지할 수 있음을 보여주며, GPT-4o를 포함한 표준 미세 조정 방법 및 프롬프트 기반 방법보다 훨씬 뛰어난 성능을 보입니다.
Aligning Large Language Models (LLMs) with nuanced human values remains a critical challenge, as existing methods like Reinforcement Learning from Human Feedback (RLHF) often handle only coarse-grained attributes. In practice, fine-tuning LLMs on task-specific datasets to optimize value alignment inevitably incurs an alignment tax: the model's pre-calibrated value system drifts significantly due to latent bias absorption from training data, while the fine-tuning process also causes severe hallucinations and semantic information loss in generated responses. To address this, we propose VISA (Value Injection via Shielded Adaptation), a closed-loop framework designed to navigate this trade-off. VISA's architecture features a high-precision value detector, a semantic-to-value translator, and a core value-rewriter. The value-rewriter is trained via Group Relative Policy Optimization (GRPO) with a composite reward function that simultaneously optimizes for fine-grained value precision, and the preservation of semantic integrity. By learning an optimal policy to balance these competing objectives, VISA effectively mitigates the alignment tax while staying loyal to the original knowledge. Our experiments demonstrate that this approach enables precise control over a model's value expression while maintaining its factual consistency and general capabilities, significantly outperforming both standard fine-tuning methods and prompting-based baselines, including GPT-4o.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.