텍스트를 활용한 모델 간 호환성을 갖는 개인화 인터페이스
Text as a Universal Interface for Transferable Personalization
본 연구는 대규모 언어 모델(LLM)에서의 개인화 문제를 다룹니다. 기존 연구에서는 주로 사용자의 선호도를 암묵적인, 모델에 특화된 벡터 또는 파라미터로 표현하여 해석하기 어렵고 모델 및 작업 간에 전송하기 어려운 '블랙박스' 프로필을 생성합니다. 이에 반해, 우리는 자연어를 선호도 표현을 위한 보편적이고 모델 및 작업에 독립적인 인터페이스로 제안합니다. 이러한 접근 방식은 해석 가능하고 재사용 가능한 선호도 설명을 제공하며, 새로운 상호 작용이 관찰됨에 따라 지속적인 개선을 지원합니다. 이러한 표현을 학습하기 위해, 고품질의 합성 데이터에 대한 지도 학습과 장기적인 유틸리티 및 작업 간의 전송 가능성을 최적화하는 강화 학습을 결합한 2단계 학습 프레임워크를 제안합니다. 이 프레임워크를 기반으로, 텍스트 기반 선호도 요약 생성을 위한 범용 선호도 추론 모델인 AlignXplore+를 개발했습니다. 9개의 벤치마크 실험 결과, 8B 모델이 최첨단 성능을 달성했으며, 상당한 규모의 오픈 소스 모델보다 우수한 성능을 보였습니다. 또한, 다양한 작업, 모델 패밀리, 상호 작용 형식에 걸쳐 강력한 전송 가능성을 나타냅니다.
We study the problem of personalization in large language models (LLMs). Prior work predominantly represents user preferences as implicit, model-specific vectors or parameters, yielding opaque ``black-box'' profiles that are difficult to interpret and transfer across models and tasks. In contrast, we advocate natural language as a universal, model- and task-agnostic interface for preference representation. The formulation leads to interpretable and reusable preference descriptions, while naturally supporting continual evolution as new interactions are observed. To learn such representations, we introduce a two-stage training framework that combines supervised fine-tuning on high-quality synthesized data with reinforcement learning to optimize long-term utility and cross-task transferability. Based on this framework, we develop AlignXplore+, a universal preference reasoning model that generates textual preference summaries. Experiments on nine benchmarks show that our 8B model achieves state-of-the-art performanc -- outperforming substantially larger open-source models -- while exhibiting strong transferability across tasks, model families, and interaction formats.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.