구조화된 세계 모델로부터 학습 없이 얻은 사전 정보를 활용한 콜드 스타트 개인화
Cold-Start Personalization via Training-Free Priors from Structured World Models
콜드 스타트 개인화는 사용자별 과거 데이터가 없을 때, 상호작용을 통해 사용자 선호도를 추론하는 것을 요구합니다. 핵심적인 과제는 라우팅 문제입니다. 각 작업은 수십 개의 선호도 차원을 포함하지만, 개별 사용자는 그 중 몇 가지에만 관심을 가지며, 어떤 차원이 중요한지는 사용자마다 다릅니다. 제한된 질문 예산 하에서, 구조 없이 질문하면 중요한 차원을 놓칠 가능성이 높습니다. 강화 학습은 자연스러운 접근 방식이지만, 다중 턴 설정에서는 최종 보상이 선호도 데이터의 요인화된, 각 기준별 구조를 활용하지 못하며, 실제로 학습된 정책은 사용자 응답을 무시하는 정적인 질문 시퀀스로 수렴합니다. 우리는 콜드 스타트 추론을 오프라인 구조 학습과 온라인 베이지안 추론으로 분리하는 방법을 제안합니다. Pep (사전 정보를 활용한 선호도 추론)은 완전한 프로필에서 선호도 상관 관계에 대한 구조화된 세계 모델을 오프라인으로 학습한 다음, 온라인으로 학습 없이 베이지안 추론을 수행하여 유용한 질문을 선택하고, 질문되지 않은 차원을 포함하여 완전한 선호도 프로필을 예측합니다. 이 프레임워크는 다운스트림 솔루션에 모듈화되어 있으며, 간단한 신뢰 모델만 필요합니다. 의료, 수학, 사회, 상식 추론 분야에서 Pep은 생성된 응답과 사용자의 명시된 선호도 간의 일치율이 80.8%로, 강화 학습의 68.5%보다 높으며, 3~5배 적은 상호 작용으로 달성되었습니다. 두 사용자가 동일한 질문에 대해 서로 다른 답변을 제공하는 경우, Pep은 39~62%의 경우 후속 질문을 변경하는 반면, 강화 학습은 0~28%의 경우에만 변경합니다. Pep은 약 10,000개의 파라미터를 사용하는 반면, 강화 학습은 80억 개의 파라미터를 사용하며, 이는 콜드 스타트 추론의 병목 지점이 선호도 데이터의 요인화된 구조를 활용하는 능력에 있다는 것을 보여줍니다.
Cold-start personalization requires inferring user preferences through interaction when no user-specific historical data is available. The core challenge is a routing problem: each task admits dozens of preference dimensions, yet individual users care about only a few, and which ones matter depends on who is asking. With a limited question budget, asking without structure will miss the dimensions that matter. Reinforcement learning is the natural formulation, but in multi-turn settings its terminal reward fails to exploit the factored, per-criterion structure of preference data, and in practice learned policies collapse to static question sequences that ignore user responses. We propose decomposing cold-start elicitation into offline structure learning and online Bayesian inference. Pep (Preference Elicitation with Priors) learns a structured world model of preference correlations offline from complete profiles, then performs training-free Bayesian inference online to select informative questions and predict complete preference profiles, including dimensions never asked about. The framework is modular across downstream solvers and requires only simple belief models. Across medical, mathematical, social, and commonsense reasoning, Pep achieves 80.8% alignment between generated responses and users' stated preferences versus 68.5% for RL, with 3-5x fewer interactions. When two users give different answers to the same question, Pep changes its follow-up 39-62% of the time versus 0-28% for RL. It does so with ~10K parameters versus 8B for RL, showing that the bottleneck in cold-start elicitation is the capability to exploit the factored structure of preference data.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.