2605.04539v1 May 06, 2026 cs.CL

RLearner-LLM: 하이브리드 직접 선호도 최적화를 통한 대규모 언어 모델의 논리적 기반과 유창성 균형

RLearner-LLM: Balancing Logical Grounding and Fluency in Large Language Models via Hybrid Direct Preference Optimization

M. Witbrock
M. Witbrock
Citations: 11
h-index: 2
Juho Leinonen
Juho Leinonen
Citations: 5,288
h-index: 34
Qiming Bao
Qiming Bao
University of Auckland
Citations: 285
h-index: 8
Paul Denny
Paul Denny
Citations: 70
h-index: 2

직접 선호도 최적화(DPO)는 PPO 기반 RLHF의 효율적인 대안이지만, 지식 집약적인 텍스트 생성에서는 한계가 있습니다. 인간 평가자 또는 LLM 평가기가 제공하는 표준적인 선호도 신호는 체계적인 장황성 편향을 보여주어 논리적 정확성보다 유창성을 우선시합니다. 이러한 문제점은 논리적 정렬 격차를 야기하며, SFT 모델은 유창한 텍스트를 생성함에도 불구하고 NLI 포함률이 0.05~0.22에 불과합니다. 본 연구에서는 DeBERTa-v3 NLI 신호와 검증 LLM 점수를 결합한 자동화된 선호도 파이프라인인 RLearner-LLM과 하이브리드-DPO를 제안합니다. 이를 통해 인간 주석 없이도 단일 신호 최적화의 '정렬 비용'을 극복할 수 있습니다. RLearner-LLM은 LLaMA-2-13B, Qwen3-8B, Gemma 4 E4B-it의 세 가지 기본 아키텍처를 사용하여 생물학, 의학, 법학 등 다섯 가지 학문 분야에서 평가되었으며, SFT 모델 대비 최대 6배의 NLI 향상을 보였으며, 15개 셀 중 11개에서 NLI 향상이 관찰되었고, 일관된 답변 범위 향상을 보였습니다. 특히 Gemma 4 E4B-it (45억 개 유효 파라미터)에서 하이브리드-DPO는 다섯 가지 분야 중 네 분야에서 NLI를 향상시켰으며(+11.9% ~ 2.4배), 모든 분야에서 추론 속도가 빨라졌습니다. 또한, 작은 기본 모델로 축소하더라도 정렬 비용 완화 효과를 유지했습니다. Qwen3-8B RLearner-LLM은 자체 SFT 기준 모델과의 쌍대 비교에서 95%의 승률을 기록했으며, GPT-4o-mini는 저희 모델의 간결한 결과물과 비교하여 95%의 승률을 기록했습니다. 동일한 평가 모델이 저희 DPO 모델보다 장황한 SFT 모델에 69%의 승률을 부여한 점은 최첨단 비교 대상에서 장황성 편향을 재현하며, 지식 집약적인 텍스트 생성에서 NLI 및 ACR과 같은 논리 기반 지표의 중요성을 강조합니다 (LLM을 평가 모델로 사용하는 것보다).

Original Abstract

Direct Preference Optimization (DPO), the efficient alternative to PPO-based RLHF, falls short on knowledge-intensive generation: standard preference signals from human annotators or LLM judges exhibit a systematic verbosity bias that rewards fluency over logical correctness. This blindspot leaves a logical alignment gap -- SFT models reach NLI entailment of only 0.05-0.22 despite producing fluent text. We propose RLearner-LLM with Hybrid-DPO: an automated preference pipeline that fuses a DeBERTa-v3 NLI signal with a verifier LLM score, removing human annotation while overcoming the "alignment tax" of single-signal optimization. Evaluated across five academic domains (Biology, Medicine, Law) with three base architectures (LLaMA-2-13B, Qwen3-8B, Gemma 4 E4B-it), RLearner-LLM yields up to 6x NLI improvement over SFT, with NLI gains in 11 of 15 cells and consistent answer-coverage gains. On Gemma 4 E4B-it (4.5B effective params), Hybrid-DPO lifts NLI in four of five domains (+11.9% to +2.4x) with faster inference across all five, scaling down to compact base models without losing the alignment-tax mitigation. Our Qwen3-8B RLearner-LLM wins 95% of pairwise comparisons against its own SFT baseline; GPT-4o-mini in turn wins 95% against our concise output -- alongside the 69% win the same judge gives a verbose SFT over our DPO model, this replicates verbosity bias on a frontier comparator and motivates logic-aware metrics (NLI, ACR) over LLM-as-a-judge for knowledge-intensive generation.

0 Citations
0 Influential
17 Altmetric
85.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!