2603.02702v1 Mar 03, 2026 cs.AI

FinTexTS: 의미 기반 및 다단계 연결 방식을 활용한 금융 텍스트-시계열 데이터셋

FinTexTS: Financial Text-Paired Time-Series Dataset via Semantic-Based and Multi-Level Pairing

Wonbin Ahn
Wonbin Ahn
Citations: 17
h-index: 2
Yongjae Lee
Yongjae Lee
Citations: 58
h-index: 3
Jaehoon Lee
Jaehoon Lee
Citations: 8
h-index: 2
Suhwan Park
Suhwan Park
Citations: 32
h-index: 2
Taeyoon Lim
Taeyoon Lim
Citations: 4
h-index: 1
Seunghan Lee
Seunghan Lee
Citations: 152
h-index: 3
Jun Seo
Jun Seo
Citations: 2
h-index: 1
Dongwan Kang
Dongwan Kang
Citations: 3
h-index: 1
Hwanil Choi
Hwanil Choi
Citations: 62
h-index: 3
Minjae Kim
Minjae Kim
Citations: 5
h-index: 1
Sungdong Yoo
Sungdong Yoo
Citations: 5
h-index: 1
Soonyoung Lee
Soonyoung Lee
Citations: 1
h-index: 1

금융 분야에는 다양한 중요한 시계열 문제가 존재합니다. 최근에는 텍스트 및 수치 정보를 함께 활용하는 시계열 분석 방법이 많은 관심을 받고 있습니다. 이에 따라, 금융 분야에서 텍스트와 시계열 데이터를 결합한 데이터셋 구축을 위한 노력이 많이 이루어졌습니다. 그러나 금융 시장은 복잡한 상호 의존성을 특징으로 하며, 회사의 주가는 해당 회사 자체의 사건뿐만 아니라 다른 회사 및 더 넓은 거시 경제적 요인에 의해 영향을 받습니다. 단순 키워드 매칭을 기반으로 텍스트와 금융 시계열 데이터를 연결하는 기존 접근 방식은 이러한 복잡한 관계를 제대로 반영하지 못하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 의미 기반 및 다단계 연결 프레임워크를 제안합니다. 구체적으로, 우리는 SEC 보고서에서 대상 회사의 특정 맥락을 추출하고, 이 맥락을 기반으로 임베딩 기반 매칭 메커니즘을 사용하여 의미적으로 관련된 뉴스 기사를 검색합니다. 또한, 우리는 대규모 언어 모델(LLM)을 사용하여 뉴스 기사를 네 가지 수준(거시 수준, 산업 수준, 관련 회사 수준, 대상 회사 수준)으로 분류하여, 뉴스 기사를 대상 회사와 다단계로 연결합니다. 이 프레임워크를 공개적으로 이용 가능한 뉴스 데이터셋에 적용하여, 새로운 대규모 텍스트-연결 주가 데이터셋인 extbf{FinTexTS}를 구축했습니다. extbf{FinTexTS}에 대한 실험 결과는 우리의 의미 기반 및 다단계 연결 전략이 주가 예측에 효과적임을 보여줍니다. 또한, extbf{FinTexTS}의 기반이 되는 공개 뉴스 외에도, 우리의 방법을 신중하게 선별된 독점 뉴스 소스에 적용하면 더 높은 품질의 연결 데이터를 얻을 수 있으며, 주가 예측 성능이 향상됨을 보여줍니다.

Original Abstract

The financial domain involves a variety of important time-series problems. Recently, time-series analysis methods that jointly leverage textual and numerical information have gained increasing attention. Accordingly, numerous efforts have been made to construct text-paired time-series datasets in the financial domain. However, financial markets are characterized by complex interdependencies, in which a company's stock price is influenced not only by company-specific events but also by events in other companies and broader macroeconomic factors. Existing approaches that pair text with financial time-series data based on simple keyword matching often fail to capture such complex relationships. To address this limitation, we propose a semantic-based and multi-level pairing framework. Specifically, we extract company-specific context for the target company from SEC filings and apply an embedding-based matching mechanism to retrieve semantically relevant news articles based on this context. Furthermore, we classify news articles into four levels (macro-level, sector-level, related company-level, and target-company level) using large language models (LLMs), enabling multi-level pairing of news articles with the target company. Applying this framework to publicly-available news datasets, we construct \textbf{FinTexTS}, a new large-scale text-paired stock price dataset. Experimental results on \textbf{FinTexTS} demonstrate the effectiveness of our semantic-based and multi-level pairing strategy in stock price forecasting. In addition to publicly-available news underlying \textbf{FinTexTS}, we show that applying our method to proprietary yet carefully curated news sources leads to higher-quality paired data and improved stock price forecasting performance.

1 Citations
0 Influential
1.5 Altmetric
8.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!