2604.20933v1 Apr 22, 2026 cs.LG

IRIS: 보간된 르네이 반복 자기 학습을 이용한 대규모 언어 모델 미세 조정

IRIS: Interpolative Rényi Iterative Self-play for Large Language Model Fine-Tuning

Liang Zhao
Liang Zhao
Citations: 229
h-index: 4
Wenjie Liao
Wenjie Liao
Citations: 65
h-index: 5
Like Wu
Like Wu
Citations: 62
h-index: 4
Shihui Xu
Shihui Xu
Citations: 60
h-index: 4
Shigeru Fujimura
Shigeru Fujimura
Citations: 68
h-index: 5

자기 학습 미세 조정은 대규모 언어 모델이 추가적인 인간 주석 없이도 지도 학습 미세 조정을 넘어 성능을 향상시킬 수 있는 방법을 제공합니다. 이는 주석이 달린 응답과 자체 생성된 응답을 비교하는 방식으로 작동합니다. 많은 기존 방법들은 고정된 발산(divergence) 방식을 사용합니다. SPIN은 KL 발산 기반 방식과, SPACE는 노이즈 대비 추정(noise contrastive estimation)을 통한 Jensen-Shannon 스타일의 목적 함수를 사용하며, SPIF는 $χ^2$ 정규화된 자기 학습 방식을 사용합니다. 이러한 발산들은 모델과 목표 분포 간의 차이에 따라 다른 강점을 보이기 때문에, 단일한 선택이 모든 학습 단계에서 유리한 학습 동역학을 제공하는 것 같지는 않습니다. 우리는 연속적으로 조정 가능한 목적 함수를 갖는 르네이 기반 자기 학습 미세 조정 프레임워크인 IRIS (Interpolative Rényi Iterative Self-play)를 제안합니다. IRIS는 주석이 달린 데이터와 합성 데이터에 대한 두 개의 독립적인 기울어진 위험 항으로 구성되며, 지수적 중요 가중치는 파라미터 $α$에 의해 제어됩니다. 우리는 여러 자기 학습 목적 함수가 특정 $α$ 값에서 제한적이거나 대표적인 방식으로 해석될 수 있음을 보여주며, 이를 통해 이러한 방법들에 대한 통일된 이론적 관점을 제공합니다. 또한, 적응형 파라미터 스케줄은 $α$를 분포 차이에 맞게 조정하여, 학습 초반에는 더 강한 중요 가중치를 사용하고, 수렴에 가까워질수록 더 부드러운 개선을 수행합니다. 이론적으로, 우리는 IRIS의 고정점 특성을 확립하고, $α$가 기울기 집중(gradient concentration)을 어떻게 제어하는지 분석했습니다. Zephyr-7B 및 Qwen2.5-3B 모델을 사용하여 수행된 10개의 벤치마크 실험 결과, IRIS는 기준 모델보다 성능이 향상되었으며, 평균 44.57%의 점수를 달성했습니다. 특히, IRIS는 단 26,000개의 주석이 달린 샘플만 사용했을 때, 전체 200,000개의 데이터 세트로 학습된 표준 지도 학습 미세 조정보다 우수한 성능을 보였습니다.

Original Abstract

Self-play fine-tuning enables large language models to improve beyond supervised fine-tuning without additional human annotations by contrasting annotated responses with self-generated ones. Many existing methods rely on a fixed divergence regime. SPIN is closely related to a KL-based regime, SPACE to a Jensen-Shannon-style objective via noise contrastive estimation, and SPIF to $χ^2$-regularized self-play. Since these divergences exhibit different strengths depending on the distributional gap between model and target, no single choice appears to provide favorable learning dynamics across training stages. We propose IRIS (Interpolative Rényi Iterative Self-play), a Rényi-based self-play fine-tuning framework with a continuously adjustable objective. IRIS decomposes into two independent tilted risk terms over annotated and synthetic data, with exponential importance weights controlled by the order parameter $α$. We show that several self-play objectives can be interpreted as limiting or representative regimes at particular values of $α$, providing a unified theoretical perspective on these methods. An adaptive order schedule further adjusts $α$ to the distributional gap, shifting from sharper importance weighting early in training to smoother refinement near convergence. Theoretically, we establish the fixed-point property of IRIS and analyze how $α$ controls gradient concentration. Experiments on Zephyr-7B and Qwen2.5-3B across ten benchmarks show that IRIS improves upon baselines, reaching 44.57\% average score with gains across iterations. In our setting, IRIS with only 26$k$ annotated samples surpasses standard supervised fine-tuning trained on the full 200$k$ dataset.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!