랜덤은 쉽게 이기기 어렵다: 최신 LLM을 활용한 온라인 DPO에서의 능동적 선택
Random Is Hard to Beat: Active Selection in online DPO with Modern LLMs
최신 LLM은 웹 규모의 사전 학습에서 얻은 강력한 사전 지식을 상속받으며, 이는 추가 학습 데이터 선택 전략의 잠재력을 제한할 수 있습니다. 능동적 선호 학습(APL)은 온라인 직접 선호 최적화(DPO)에서 쿼리 효율성을 최적화하는 것을 목표로 하지만, 정책 기반 후보 풀의 풍부함은 종종 간단한 랜덤 샘플링을 놀라울 정도로 강력한 기준점으로 만듭니다. 우리는 불확실성에 기반한 APL과 랜덤 샘플링을 안전성, 유용성 및 지시 따르기 측면에서 평가했으며, 보상 모델과 LLM-as-a-judge 프록시를 모두 사용했습니다. 실험 결과, APL은 랜덤 샘플링과 비교하여 프록시 승률에서 미미한 개선 효과만 보였습니다. 더욱 중요한 점은, 일반적인 성능(표준 벤치마크로 측정)이 저하되는 동시에 승률이 향상되는 현상이 관찰되었습니다. APL은 이러한 성능 저하를 완화하거나 랜덤 샘플링보다 훨씬 더 큰 변동성을 줄이는 데 실패했습니다. 우리의 연구 결과는 강력한 사전 학습된 지식의 경우, 능동적 선택의 계산 비용이 간단한 랜덤 샘플링이 제공하는 "저렴한 다양성"에 비해 정당화하기 어렵다는 것을 시사합니다. 관련 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/BootsofLagrangian/random-vs-apl.
Modern LLMs inherit strong priors from web-scale pretraining, which can limit the headroom of post-training data-selection strategies. While Active Preference Learning (APL) seeks to optimize query efficiency in online Direct Preference Optimization (DPO), the inherent richness of on-policy candidate pools often renders simple Random sampling a surprisingly formidable baseline. We evaluate uncertainty-based APL against Random across harmlessness, helpfulness, and instruction-following settings, utilizing both reward models and LLM-as-a-judge proxies. We find that APL yields negligible improvements in proxy win-rates compared to Random. Crucially, we observe a dissociation where win-rate improves even as general capability -- measured by standard benchmarks -- degrades. APL fails to mitigate this capability collapse or reduce variance significantly better than random sampling. Our findings suggest that in the regime of strong pre-trained priors, the computational overhead of active selection is difficult to justify against the ``cheap diversity'' provided by simple random samples. Our code is available at https://github.com/BootsofLagrangian/random-vs-apl.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.