자기 소모적 수행 루프(Self-Consuming Performative Loop)에서의 대규모 언어 모델 편향에 대한 고찰 및 해결 방안
Observations and Remedies for Large Language Model Bias in Self-Consuming Performative Loop
대규모 언어 모델(LLM)의 급속한 발전으로 인해 미래 모델 훈련에 합성 데이터를 사용하는 것에 대한 관심이 높아지고 있습니다. 그러나 이는 모델이 자신의 출력물로 훈련되는 자기 소모적 재훈련 루프를 형성하여, 성능 저하를 일으키거나 새로운 편향을 유발할 수 있습니다. 실제 응용 분야에서 이전에 배포된 LLM은 자신이 생성하는 데이터에 영향을 미칠 수 있으며, 이는 사용자 피드백에 의해 주도되는 동적 시스템으로 이어집니다. 예를 들어, 모델이 특정 집단의 사용자에게 지속적으로 불충분한 서비스를 제공한다면, 해당 인구 통계학적 사용자들로부터 수집되는 쿼리 데이터는 줄어들 것입니다. 본 연구에서는 자기 소모적 수행 루프(SCPL)의 개념을 도입하고, 통제된 수행적 피드백 하에서 이러한 동적 반복 훈련 과정 동안 편향을 형성하는 데 있어 합성 데이터의 역할을 조사합니다. 이러한 통제된 설정은 동적 프로덕션 시스템의 실제 사용자 선호도 데이터에 접근하기 어렵다는 점에 기인하며, 피드백에 따른 편향의 진화를 원칙적인 방식으로 분리하고 분석할 수 있게 해줍니다. 우리는 전형적인 재훈련 설정과 아직 충분히 연구되지 않은 증분 미세 조정 설정을 포함한 두 가지 유형의 루프에 초점을 맞춥니다. 세 가지 실제 작업에 대한 실험을 통해, 우리는 수행적 루프가 선호도 편향을 증가시키고 격차 편향(disparate bias)을 감소시킨다는 것을 확인했습니다. 우리는 이러한 편향을 완화하기 위해 보상 기반의 기각 샘플링 전략을 설계하여, 보다 신뢰할 수 있는 자기 개선 시스템으로 나아가고자 합니다.
The rapid advancement of large language models (LLMs) has led to growing interest in using synthetic data to train future models. However, this creates a self-consuming retraining loop, where models are trained on their own outputs and may cause performance drops and induce emerging biases. In real-world applications, previously deployed LLMs may influence the data they generate, leading to a dynamic system driven by user feedback. For example, if a model continues to underserve users from a group, less query data will be collected from this particular demographic of users. In this study, we introduce the concept of \textbf{S}elf-\textbf{C}onsuming \textbf{P}erformative \textbf{L}oop (\textbf{SCPL}) and investigate the role of synthetic data in shaping bias during these dynamic iterative training processes under controlled performative feedback. This controlled setting is motivated by the inaccessibility of real-world user preference data from dynamic production systems, and enables us to isolate and analyze feedback-driven bias evolution in a principled manner. We focus on two types of loops, including the typical retraining setting and the incremental fine-tuning setting, which is largely underexplored. Through experiments on three real-world tasks, we find that the performative loop increases preference bias and decreases disparate bias. We design a reward-based rejection sampling strategy to mitigate the bias, moving towards more trustworthy self-improving systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.