RealFin: 사용자가 언급하지 않은 정보가 있을 때, LLM이 금융 문제에 대해 얼마나 정확하게 추론하는가?
RealFin: How Well Do LLMs Reason About Finance When Users Leave Things Unsaid?
신뢰할 수 있는 금융 추론은 답을 제공하는 것뿐만 아니라, 답을 제시할 수 없는 상황을 판단하는 능력도 필요합니다. 실제 금융 환경에서, 문제들은 종종 명시적으로 언급되지 않고 당연하게 여겨지는 암묵적인 전제를 기반으로 합니다. 이는 문제가 해결 가능한 것처럼 보이게 하지만, 정확한 답변을 내릴 만큼 충분한 정보가 부족한 상황을 초래합니다. 본 논문에서는 REALFIN이라는 양방향 벤치마크를 소개합니다. 이 벤치마크는 시험 문제 형식을 사용하여 필수적인 전제를 체계적으로 제거하면서도 언어적으로 타당성을 유지합니다. 이를 바탕으로, 모델을 세 가지 방식으로 평가합니다. 첫째, 답변의 정확성, 둘째, 누락된 정보의 인지, 셋째, 정당하지 않은 선택지의 거부 능력입니다. 분석 결과, 핵심 조건이 누락될 경우 모델의 성능이 일관되게 저하되는 것을 확인했습니다. 범용 모델은 과도하게 답변을 시도하고 추측하는 경향이 있으며, 대부분의 금융 전문 모델은 누락된 전제를 명확하게 식별하는 데 실패합니다. 이러한 결과는 현재 평가 방식의 중요한 한계를 보여주며, 신뢰할 수 있는 금융 모델은 질문에 답변해야 할지 여부를 판단할 수 있어야 한다는 점을 강조합니다.
Reliable financial reasoning requires knowing not only how to answer, but also when an answer cannot be justified. In real financial practice, problems often rely on implicit assumptions that are taken for granted rather than stated explicitly, causing problems to appear solvable while lacking enough information for a definite answer. We introduce REALFIN, a bilingual benchmark that evaluates financial reasoning by systematically removing essential premises from exam-style questions while keeping them linguistically plausible. Based on this, we evaluate models under three formulations that test answering, recognizing missing information, and rejecting unjustified options, and find consistent performance drops when key conditions are absent. General-purpose models tend to over-commit and guess, while most finance-specialized models fail to clearly identify missing premises. These results highlight a critical gap in current evaluations and show that reliable financial models must know when a question should not be answered.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.