2601.19055v1 Jan 27, 2026 cs.LG

사용자 편집 데이터를 활용한 LLM의 원칙적 미세 조정: 선호도, 지도, 보상의 통합

Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and Reward

G. Gao
G. Gao
Citations: 39
h-index: 3
Aldo Pacchiano
Aldo Pacchiano
Citations: 26
h-index: 3
Dipendra Misra
Dipendra Misra
Citations: 7
h-index: 1
Ta-Chung Chi
Ta-Chung Chi
Citations: 10
h-index: 2

본 연구에서는 LLM 기반 작문 도우미 및 코딩 에이전트와 같은 애플리케이션에서 생성되는 사용자 편집 데이터(문맥, 에이전트 응답, 사용자 편집 포함)를 사용하여 LLM을 미세 조정하는 방법을 연구합니다. 사용자 편집 데이터는 자연적으로 생성되며, 이는 LLM을 적응시키고 개인화하는 데 매우 유용한 자료입니다. 본 연구에서는 일반적으로 개별적으로 연구되는 다양한 피드백 유형(선호도, 지도, 비용)을 통합하는 방식을 제시합니다. 본 논문에서는 사용자 편집 데이터를 학습하는 것에 대한 이론적 연구를 시작합니다. 먼저, 각 피드백 유형으로부터 학습하는 알고리즘에 대한 경계를 도출합니다. 이러한 알고리즘은 사용자, 데이터 분포 및 모델 클래스에 따라 다른 장단점을 갖는다는 것을 증명합니다. 그런 다음, 이러한 피드백 유형을 함께 학습하기 위한 간단한 앙상블 방법을 제안합니다. Gao et al. (2024)에서 제시된 두 도메인에서, 제안하는 앙상블 방법이 개별 피드백으로부터 학습하는 기존 방법보다 우수한 성능을 보임을 확인했습니다. 또한, 제안하는 방법이 테스트 시점에 다양한 사용자 편집 분포에 대해 안정적으로 적응할 수 있음을 보여줍니다.

Original Abstract

We study how to fine-tune LLMs using user-edit deployment data consisting of a set of context, an agent's response, and user edits. This deployment data is naturally generated by users in applications such as LLMs-based writing assistants and coding agents. The _natural_ origin of user edits makes it a desired source for adapting and personalizing LLMs. In this setup, there emerges a unification of various feedback types namely preferences, supervised labels, and cost that are typically studied separately in the literature. In this paper, we initiate the theoretical investigation of learning from user edits. We first derive bounds for learning algorithms that learn from each of these feedback types. We prove that these algorithms have different trade-offs depending upon the user, data distribution, and model class. We then propose a simple ensembling procedure to jointly learn from these feedback types. On two domains adapted from Gao et al. 2024, we show our ensembling procedure outperforms these methods that learn from individual feedback. Further, we show that our proposed procedure can robustly adapt to different user-edit distributions at test time.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!