2605.04431v1 May 06, 2026 cs.SE

강건한 LLM 후속 학습을 위한 연구: 강화 학습 미세 조정을 위한 자동 오류 관리

Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning

Tong Jia
Tong Jia
Citations: 432
h-index: 11
Yunpeng Zhai
Yunpeng Zhai
Citations: 197
h-index: 8
Ying Li
Ying Li
Citations: 483
h-index: 12
Philip S. Yu
Philip S. Yu
Citations: 25
h-index: 3
Kening Zheng
Kening Zheng
Citations: 245
h-index: 7
Lingzhe Zhang
Lingzhe Zhang
Citations: 328
h-index: 10
Liancheng Fang
Liancheng Fang
Citations: 229
h-index: 9
Hongyi Liu
Hongyi Liu
Citations: 97
h-index: 6
Xiaosong Huang
Xiaosong Huang
Citations: 58
h-index: 4

강화 학습 미세 조정(RFT)은 대규모 언어 모델의 후속 학습을 위한 핵심 패러다임으로 자리 잡았지만, 그 훈련 과정은 여전히 매우 불안정합니다. 기존의 노력은 주로 시스템 수준에서의 안정성 향상 또는 RFT 알고리즘을 수정하여 개별 하위 문제에 대한 특정 문제 해결에 집중했습니다. 이러한 노력은 효과적이지만, 훈련 과정 수준에서의 오류 관리에 대한 문제는 대부분 간과되었습니다. 훈련이 실패할 경우, 실무자들은 여전히 전문가 주도의 수동 검사 및 수정에 크게 의존하며, RFT를 위한 자동 오류 관리는 아직 충분히 연구되지 않았습니다. 본 논문에서는 강화 학습 미세 조정을 위한 체계적인 오류 관리를 위한 첫걸음을 내딛습니다. RFT 실패의 경험적 구조를 이해하기 위해, 우리는 5가지 오류 유형, 16가지 오류 종류, 779회의 훈련, 22,549개의 훈련 단계 기록, 그리고 1,457,288개의 추적 레벨 기록을 포함하는 강화 학습 미세 조정 분야 최초의 세분화된 오류 벤치마크인 RFT-FaultBench를 구축했습니다. 이 벤치마크를 기반으로, 우리는 포괄적인 경험적 연구를 수행하여 RFT 실패는 훈련 동역학에서 관찰 가능하며, 경험적 오류 지문을 통해 구별될 수 있음을 보여줍니다. 이러한 결과를 바탕으로, 우리는 이상 탐지, 오류 진단 및 자동 복구를 하나의 폐쇄 루프 시스템으로 통합하는 강화 학습 미세 조정을 위한 자동 오류 관리 프레임워크인 RFT-FM을 제안합니다. 실험 결과는 RFT-FaultBench가 단순하거나 포화되지 않았음을 보여줍니다. 즉, 명확한 이상 구조를 보이지만, 특히 미묘한 오류 설정에서 상당한 과제를 제시합니다. 또한, RFT-FM은 RFT 실패를 탐지, 진단 및 완화하는 데 강력한 기능을 보여줍니다.

Original Abstract

Reinforcement fine-tuning (RFT) has become a core paradigm for post-training large language models, yet its training process remains highly fragile. Existing efforts mainly improve reliability at the system level or address specific issues in individual subproblems by modifying RFT algorithms. Despite their effectiveness, they largely overlook the problem of failure management at the training-process level. When training goes wrong, practitioners still rely heavily on expert-driven manual inspection and correction, and automatic failure management for RFT remains largely unexplored. In this paper, we take a first step toward systematic failure management for reinforcement fine-tuning. To understand the empirical structure of RFT failures, we first construct RFT-FaultBench, the first benchmark for fine-grained failures in reinforcement fine-tuning, covering 5 fault families, 16 fault types, 779 training runs, 22,549 train-step records, and 1,457,288 trajectory-level records. Based on this benchmark, we conduct a comprehensive empirical study showing that RFT failures are both observable from training dynamics and distinguishable through their empirical fault fingerprints. Building on these findings, we propose RFT-FM, an automatic failure management framework for reinforcement fine-tuning that unifies anomaly detection, failure diagnosis, and auto remediation in a closed loop. Experimental results show that RFT-FaultBench is neither trivial nor saturated: it exhibits clear anomaly structure while still posing substantial challenges, especially under subtle fault settings. Moreover, RFT-FM shows strong capability in detecting, diagnosing, and mitigating RFT failures.

2 Citations
0 Influential
6 Altmetric
32.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!