과학적 프로세스에 대한 보상: 에이전트 기반 데이터 분석을 위한 프로세스 레벨 보상 모델링
Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis
프로세스 보상 모델(PRM)은 수학과 같은 정적인 영역에서 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 놀라운 성공을 거두었습니다. 그러나 동적 데이터 분석 작업에서의 잠재력은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 먼저 일반적인 영역의 PRM이 데이터 분석 에이전트를 효과적으로 지도하는 데 어려움을 겪는다는 경험적 연구 결과를 제시합니다. 구체적으로, PRM은 해석기 예외를 발생시키지 않고 잘못된 결과를 초래하는 '침묵 오류'를 감지하지 못하고, 필요한 탐색 과정을 '접지 실패'로 오판하여 잘못된 페널티를 부여합니다. 이러한 격차를 해소하기 위해, 본 연구에서는 환경 인지적인 생성적 프로세스 보상 모델인 DataPRM을 소개합니다. DataPRM은 (1) 능동적인 검증기로 작동하여, 중간 실행 상태와 상호 작용하며 침묵 오류를 발견하고, (2) 수정 가능한 접지 오류와 회복 불가능한 오류를 구별하는 '성찰 기반'의 3단계 보상 전략을 사용합니다. 다양성을 고려한 경로 생성과 지식 기반의 단계별 주석을 통해 8,000개 이상의 고품질 학습 데이터를 생성하는 확장 가능한 파이프라인을 설계했습니다. 실험 결과는 DataPRM이 Best-of-N 추론을 사용하여 ScienceAgentBench에서 7.21%, DABStep에서 11.28%의 성능 향상을 가져왔음을 보여줍니다. 특히, 40억 개의 파라미터로 구성된 DataPRM은 강력한 기준 모델보다 뛰어난 성능을 보이며, 다양한 Test-Time Scaling 전략에 대한 강력한 일반화 능력을 보여줍니다. 또한, DataPRM을 강화 학습에 통합하면 결과 기반 모델보다 상당한 성능 향상을 가져왔으며, DABench에서 78.73%, TableBench에서 64.84%의 성능을 달성하여 프로세스 기반 보상 감독의 효과를 검증했습니다. 관련 코드는 https://github.com/zjunlp/DataMind 에서 확인할 수 있습니다.
Process Reward Models (PRMs) have achieved remarkable success in augmenting the reasoning capabilities of Large Language Models (LLMs) within static domains such as mathematics. However, their potential in dynamic data analysis tasks remains underexplored. In this work, we first present a empirical study revealing that general-domain PRMs struggle to supervise data analysis agents. Specifically, they fail to detect silent errors, logical flaws that yield incorrect results without triggering interpreter exceptions, and erroneously penalize exploratory actions, mistaking necessary trial-and-error exploration for grounding failures. To bridge this gap, we introduce DataPRM, a novel environment-aware generative process reward model that (1) can serve as an active verifier, autonomously interacting with the environment to probe intermediate execution states and uncover silent errors, and (2) employs a reflection-aware ternary reward strategy that distinguishes between correctable grounding errors and irrecoverable mistakes. We design a scalable pipeline to construct over 8K high-quality training instances for DataPRM via diversity-driven trajectory generation and knowledge-augmented step-level annotation. Experimental results demonstrate that DataPRM improves downstream policy LLMs by 7.21% on ScienceAgentBench and 11.28% on DABStep using Best-of-N inference. Notably, with only 4B parameters, DataPRM outperforms strong baselines, and exhibits robust generalizability across diverse Test-Time Scaling strategies. Furthermore, integrating DataPRM into Reinforcement Learning yields substantial gains over outcome-reward baselines, achieving 78.73% on DABench and 64.84% on TableBench, validating the effectiveness of process reward supervision. Code is available at https://github.com/zjunlp/DataMind.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.