Trade-R1: 과정 수준의 추론 검증을 통해 검증 가능한 보상을 확률적 환경으로 연결하기
Trade-R1: Bridging Verifiable Rewards to Stochastic Environments via Process-Level Reasoning Verification
강화 학습(RL)은 검증 가능한 보상이 명확한 신호를 제공하는 수학 및 코딩과 같은 도메인에서 대규모 언어 모델(LLM)이 놀라운 추론 능력을 달성할 수 있게 해주었습니다. 그러나 이러한 패러다임을 금융 의사 결정으로 확장하는 것은 시장의 확률적 특성으로 인해 어려움을 겪습니다. 보상은 검증 가능하지만 내재적으로 노이즈가 많아, 표준 RL이 보상 해킹(reward hacking)으로 변질되는 원인이 되기 때문입니다. 이를 해결하기 위해 우리는 과정 수준의 추론 검증을 통해 검증 가능한 보상을 확률적 환경에 연결하는 모델 훈련 프레임워크인 Trade-R1을 제안합니다. 우리의 핵심 혁신은 긴 금융 문서에 대한 추론을 평가하는 문제를 구조화된 검색 증강 생성(RAG) 작업으로 변환하는 검증 방법입니다. 우리는 검색된 증거, 추론 체인, 의사 결정 간의 쌍방향 정렬을 평가하는 삼각 일관성 지표를 구축하여 노이즈가 많은 시장 수익률에 대한 타당성 필터 역할을 하게 합니다. 우리는 두 가지 보상 통합 전략을 탐구합니다: 안정적인 정렬 신호를 위한 고정 효과 의미론적 보상(FSR)과 결합된 크기 최적화를 위한 동적 효과 의미론적 보상(DSR)입니다. 여러 국가의 자산 선택에 대한 실험 결과, 우리의 패러다임은 보상 해킹을 감소시켰으며, 특히 DSR은 가장 높은 추론 일관성을 유지하면서도 우수한 교차 시장 일반화 성능을 달성함을 입증했습니다.
Reinforcement Learning (RL) has enabled Large Language Models (LLMs) to achieve remarkable reasoning in domains like mathematics and coding, where verifiable rewards provide clear signals. However, extending this paradigm to financial decision is challenged by the market's stochastic nature: rewards are verifiable but inherently noisy, causing standard RL to degenerate into reward hacking. To address this, we propose Trade-R1, a model training framework that bridges verifiable rewards to stochastic environments via process-level reasoning verification. Our key innovation is a verification method that transforms the problem of evaluating reasoning over lengthy financial documents into a structured Retrieval-Augmented Generation (RAG) task. We construct a triangular consistency metric, assessing pairwise alignment between retrieved evidence, reasoning chains, and decisions to serve as a validity filter for noisy market returns. We explore two reward integration strategies: Fixed-effect Semantic Reward (FSR) for stable alignment signals, and Dynamic-effect Semantic Reward (DSR) for coupled magnitude optimization. Experiments on different country asset selection demonstrate that our paradigm reduces reward hacking, with DSR achieving superior cross-market generalization while maintaining the highest reasoning consistency.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.