Conv-FinRe: 효용 기반 금융 추천을 위한 대화형 종단적 벤치마크
Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation
대부분의 추천 벤치마크는 모델이 사용자의 행동을 얼마나 잘 모방하는지를 평가합니다. 그러나 금융 자문에서 관찰된 행동은 시장 변동성 하에서 노이즈가 섞여 있거나 근시안적일 수 있으며, 사용자의 장기적인 목표와 상충될 수 있습니다. 따라서 사용자가 선택한 결과를 유일한 정답(ground truth)으로 취급하는 것은 행동 모방과 의사결정의 질을 혼동하게 만듭니다. 우리는 단순한 행동 일치를 넘어 LLM을 평가하는 주식 추천을 위한 대화형 종단적 벤치마크인 Conv-FinRe를 소개합니다. 온보딩 인터뷰, 단계별 시장 상황, 그리고 자문 대화가 주어지면, 모델은 고정된 투자 기간 동안의 추천 순위를 생성해야 합니다. 결정적으로, Conv-FinRe는 투자자별 위험 선호도에 근거한 규범적 효용과 기술적(descriptive) 행동을 구별하는 다중 관점 기준을 제공하여, LLM이 합리적 분석을 따르는지, 사용자 노이즈를 모방하는지, 혹은 시장 모멘텀에 이끌리는지를 진단할 수 있게 해줍니다. 우리는 실제 시장 데이터와 인간의 의사결정 궤적을 기반으로 벤치마크를 구축하고, 통제된 자문 대화를 구현하여 최신 LLM들을 평가합니다. 연구 결과는 합리적 의사결정 품질과 행동 일치성 간의 지속적인 상충 관계를 보여줍니다. 효용 기반 순위 지정에서 우수한 성능을 내는 모델은 종종 사용자의 선택과 일치하지 않는 반면, 행동에 맞춰 조정된 모델은 단기 노이즈에 과적합될 수 있습니다. 해당 데이터셋은 Hugging Face에 공개되었으며, 코드베이스는 GitHub에서 확인할 수 있습니다.
Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.