BinaryPPO: 이진 분류를 위한 효율적인 정책 최적화
BinaryPPO: Efficient Policy Optimization for Binary Classification
지도 미세 조정(SFT)은 독성 탐지, 사실 확인 및 인과 추론과 같은 이진 분류 작업의 표준적인 접근 방식입니다. 그러나 SFT는 레이블 노이즈, 클래스 불균형 또는 희소한 지도 데이터가 있는 실제 환경에서 종종 성능이 좋지 않습니다. 본 논문에서는 이진 분류를 보상 최대화 문제로 재구성하는 오프라인 강화 학습 대규모 언어 모델(LLM) 프레임워크인 BinaryPPO를 소개합니다. 저희 방법은 불확실하거나 부정확한 예측을 처벌하는 신뢰도 기반 보상 함수를 사용하는 근접 정책 최적화(PPO)의 변형을 활용하여 모델이 온라인 상호 작용 없이 정적 데이터 세트에서 견고한 의사 결정 정책을 학습할 수 있도록 합니다. 8개의 도메인별 벤치마크와 다양한 아키텍처의 여러 모델에 걸쳐 BinaryPPO는 정확도를 40~60% 포인트 향상시켜 최대 99%에 도달했으며, 이는 지도 기반의 기준 모델보다 훨씬 뛰어난 성능입니다. 저희는 보상 설계, 어드밴티지 스케일링 및 정책 안정성이 이러한 성능 향상에 미치는 역할에 대한 심층적인 분석을 제공합니다. 전반적으로 저희는 신뢰도 기반 보상 설계가 이진 분류를 위한 SFT의 강력한 대안을 제공한다는 것을 보여줍니다. 저희 코드는 https://github.com/psyonp/BinaryPPO 에서 확인할 수 있습니다.
Supervised fine-tuning (SFT) is the standard approach for binary classification tasks such as toxicity detection, factuality verification, and causal inference. However, SFT often performs poorly in real-world settings with label noise, class imbalance, or sparse supervision. We introduce BinaryPPO, an offline reinforcement learning large language model (LLM) framework that reformulates binary classification as a reward maximization problem. Our method leverages a variant of Proximal Policy Optimization (PPO) with a confidence-weighted reward function that penalizes uncertain or incorrect predictions, enabling the model to learn robust decision policies from static datasets without online interaction. Across eight domain-specific benchmarks and multiple models with differing architectures, BinaryPPO improves accuracy by 40-60 percentage points, reaching up to 99%, substantially outperforming supervised baselines. We provide an in-depth analysis of the role of reward shaping, advantage scaling, and policy stability in enabling this improvement. Overall, we demonstrate that confidence-based reward design provides a robust alternative to SFT for binary classification. Our code is available at https://github.com/psyonp/BinaryPPO.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.