2604.18327v1 Apr 20, 2026 cs.AI

PARM: 파이프라인에 적응된 보상 모델

PARM: Pipeline-Adapted Reward Model

Jiacheng Liu
Jiacheng Liu
Citations: 8
h-index: 1
Wei Shao
Wei Shao
Citations: 146
h-index: 4
P. Heng
P. Heng
Citations: 510
h-index: 11
Xingyu Fan
Xingyu Fan
Citations: 12
h-index: 1
Linqi Song
Linqi Song
Citations: 122
h-index: 4

보상 모델(RM)은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 데 핵심적인 역할을 하며, 강화 학습 기반 인간 피드백(RLHF) 및 고급 디코딩 전략을 지원합니다. 기존 연구의 대부분이 단일 단계 생성에 초점을 맞추는 반면, 실제 응용 분야에서는 다단계 LLM 파이프라인이 점점 더 많이 사용되고 있으며, 효과적인 보상 지침에 대한 연구는 아직 미흡합니다. 본 연구에서는 조합 최적화를 위한 코드 생성을 통해 이러한 문제를 탐구하며, 보상 모델을 문제 정의 및 해결 단계 모두에 통합하는 파이프라인을 구축합니다. 우리는 보상 모델 예측과 실제 파이프라인 실행 결과 간의 불일치라는 중요한 과제를 발견했습니다. 이를 해결하기 위해, 본 연구에서는 파이프라인별 데이터를 활용하고 직접적인 선호도 최적화를 통해 보상을 하위 작업의 피드백과 일치시키는 파이프라인에 적응된 보상 모델(PARM)을 제안합니다. PARM을 두 단계 파이프라인(문제 정의 -> 코드 생성)으로 구현하고, 네 가지 공개 최적화 벤치마크에서 실행률과 해결 정확도를 기준으로 기존 방법 및 샘플링 방법과 비교하여 평가했습니다. 또한, GSM8K 데이터셋을 사용한 추가적인 교차 도메인 실험을 통해 전이 가능성을 평가했습니다. 결과는 PARM이 파이프라인 출력의 품질과 안정성을 지속적으로 향상시키며, 다단계 LLM 추론을 위한 보상 모델링에 대한 새로운 통찰력을 제공한다는 것을 보여줍니다.

Original Abstract

Reward models (RMs) are central to aligning large language models (LLMs) with human preferences, powering RLHF and advanced decoding strategies. While most prior work focuses on single-step generation, real-world applications increasingly adopt multi-stage LLM pipelines, where effective reward guidance remains underexplored. We investigate this through code generation for combinatorial optimization, constructing a pipeline that integrates reward models into both formulation and solution stages. We identify a critical challenge: inconsistency between reward model predictions and actual pipeline execution outcomes. To address this, we propose the Pipeline-Adapted Reward Model (PARM), which leverages pipeline-specific data and direct preference optimization to align rewards with downstream feedback. We instantiate PARM as a two-stage pipeline (formulation -> code generation) and evaluate it on four public optimization benchmarks, measuring execution rate and solving accuracy against baselines and sampling methods. A supplementary cross-domain experiment on GSM8K assesses transferability. Results demonstrate that PARM consistently improves pipeline output quality and stability, providing new insights into reward modeling for multi-stage LLM reasoning.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!