AlphaForgeBench: 대규모 언어 모델을 활용한 엔드투엔드 트레이딩 전략 설계 벤치마킹
AlphaForgeBench: Benchmarking End-to-End Trading Strategy Design with Large Language Models
대규모 언어 모델(LLM)의 빠른 발전은 금융 벤치마킹 분야에 큰 영향을 미쳐, 정적인 지식 테스트에서 인터랙티브한 트레이딩 시뮬레이션으로 진화하고 있습니다. 그러나 현재 실시간 트레이딩 성능 평가 방식은 중요한 문제점, 즉 불확실성 하에서의 순차적 의사 결정 과정에서 발생하는 심각한 행동 불안정성을 간과하고 있습니다. 본 연구에서는 LLM 기반 트레이딩 에이전트가 극단적인 실행 간 변동성, 결정적인 디코딩 환경에서도 일관성 없는 행동 패턴, 그리고 인접한 시간 단계에서 발생하는 비합리적인 행동 변화를 보인다는 것을 경험적으로 입증합니다. 이러한 문제는 영구적인 행동 기억이 부족한 상태 없는 자기 회귀 아키텍처, 그리고 포트폴리오 할당에서의 연속-이산 행동 매핑에 대한 민감성에서 비롯됩니다. 결과적으로, 많은 기존 금융 트레이딩 벤치마크는 신뢰할 수 없고, 재현 불가능하며, 정보 제공력이 부족한 평가 결과를 초래합니다. 이러한 한계를 극복하기 위해, 본 연구에서는 LLM을 단순한 실행 에이전트가 아닌 양적 연구 도구로 재정의하는 체계적인 프레임워크인 AlphaForgeBench를 제안합니다. AlphaForgeBench는 트레이딩 행동을 직접 생성하는 대신, LLM이 금융적 사고에 기반한 실행 가능한 알파 팩터와 팩터 기반 전략을 생성하도록 설계되었습니다. 이러한 설계는 추론과 실행을 분리하여 완전한 결정론적이고 재현 가능한 평가를 가능하게 하며, 실제 양적 연구 워크플로우와 일치합니다. 최첨단 LLM을 대상으로 한 실험 결과, AlphaForgeBench는 실행으로 인한 불안정성을 제거하고, 금융적 추론, 전략 수립, 그리고 알파 발견 능력을 평가하는 엄격한 벤치마크를 제공한다는 것을 보여줍니다.
The rapid advancement of Large Language Models (LLMs) has led to a surge of financial benchmarks, evolving from static knowledge tests to interactive trading simulations. However, current evaluations of real-time trading performance overlook a critical failure mode: severe behavioral instability in sequential decision-making under uncertainty. We empirically show that LLM-based trading agents exhibit extreme run-to-run variance, inconsistent action sequences even under deterministic decoding, and irrational action flipping across adjacent time steps. These issues stem from stateless autoregressive architectures lacking persistent action memory, as well as sensitivity to continuous-to-discrete action mappings in portfolio allocation. As a result, many existing financial trading benchmarks produce unreliable, non-reproducible, and uninformative evaluations. To address these limitations, we propose AlphaForgeBench, a principled framework that reframes LLMs as quantitative researchers rather than execution agents. Instead of emitting trading actions, LLMs generate executable alpha factors and factor-based strategies grounded in financial reasoning. This design decouples reasoning from execution, enabling fully deterministic and reproducible evaluation while aligning with real-world quantitative research workflows. Experiments across multiple state-of-the-art LLMs show that AlphaForgeBench eliminates execution-induced instability and provides a rigorous benchmark for assessing financial reasoning, strategy formulation, and alpha discovery.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.