2604.03925v1 Apr 05, 2026 cs.CL

AdaptFuse: 외부 베이지안 추론을 통한 학습이 필요 없는 순차적 선호도 학습

AdaptFuse: Training-Free Sequential Preference Learning via Externalized Bayesian Inference

Qianwen Ge
Qianwen Ge
Citations: 4
h-index: 1
Shuo Xing
Shuo Xing
Citations: 396
h-index: 12
Haichong K. Zhang
Haichong K. Zhang
Citations: 35
h-index: 4
Fangzhou Lin
Fangzhou Lin
Citations: 20
h-index: 3
Peiran Li
Peiran Li
Citations: 99
h-index: 4
Kazunori D. Yamada
Kazunori D. Yamada
Citations: 158
h-index: 6
Siyuan Yang
Siyuan Yang
Citations: 2
h-index: 1
Zimin Zhang
Zimin Zhang
Citations: 165
h-index: 3
Zhengzhong Tu
Zhengzhong Tu
Citations: 91
h-index: 4

대규모 언어 모델(LLM)은 여러 차례의 사용자 상호 작용을 통해 증거를 축적하는 데 어려움을 겪으며, 베이지안 추론과 일관된 방식으로 자신의 믿음을 업데이트하지 못합니다. 기존의 해결책은 민감한 사용자 상호 작용 데이터를 사용하여 모델을 미세 조정해야 하므로, 개인 정보 보호가 중요한 환경에서는 적용이 제한됩니다. 본 연구에서는 LLM으로부터 확률적 계산을 완전히 분리하는 학습이 필요 없는 프레임워크인 AdaptFuse를 제안합니다. 기호 모듈은 이산적인 가설 집합에 대한 베이지안 사후 확률을 유지하며, 동결된 LLM은 다중 샘플 디리클레 집계를 통해 의미론적 추론을 제공합니다. 두 신호는 엔트로피 적응 융합을 통해 결합되며, 이 방법은 예측 신뢰도를 기반으로 각 소스를 자동으로 가중하여, 증거가 축적됨에 따라 LLM에 대한 의존도를 기호 사후 확률로 전환합니다. 본 연구는 항공 추천, 호텔 추천, 웹 쇼핑의 세 가지 영역에서 Gemma 2 9B, Llama 3 8B, Qwen 2.5 7B 모델을 사용하여 AdaptFuse의 성능을 평가했습니다. AdaptFuse는 모든 작업에서 프롬프트 기반 모델 및 미세 조정된 베이지안 교수 모델보다 일관되게 우수한 성능을 보였으며, 상호 작용 횟수가 증가함에 따라 정확도가 꾸준히 향상되었습니다. 이러한 결과는 원칙적인 추론 알고리즘이 개인화된 추천에서 미세 조정의 역할을 대체할 수 있음을 보여주며, 민감한 사용자 데이터를 저장하거나 학습하지 않고도 가능합니다. 모든 코드 및 자료는 오픈 소스로 공개될 예정입니다.

Original Abstract

Large language models struggle to accumulate evidence across multiple rounds of user interaction, failing to update their beliefs in a manner consistent with Bayesian inference. Existing solutions require fine-tuning on sensitive user interaction data, limiting their applicability in privacy-conscious settings. We propose AdaptFuse, a training-free framework that externalizes probabilistic computation entirely from the LLM: a symbolic module maintains a Bayesian posterior over a discrete hypothesis set, while a frozen LLM contributes semantic reasoning via multi-sample Dirichlet aggregation. The two signals are combined through entropy-adaptive fusion, which automatically weights each source by its predictive confidence, shifting reliance from the LLM to the symbolic posterior as evidence accumulates. We evaluate across three domains: flight recommendation, hotel recommendation, and web shopping; on Gemma 2 9B, Llama 3 8B, and Qwen 2.5 7B. AdaptFuse consistently outperforms both prompting baselines and fine-tuned Bayesian Teaching models on all tasks, with accuracy improving monotonically over interaction rounds. These results demonstrate that principled inference-time algorithms can substitute for fine-tuning in personalized recommendation, without storing or training on sensitive user data. All the code and materials will be open-sourced.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!