问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

使用LLM结合金融数据和新闻文章预测股票价格

创作时间:
作者:
@小白创作中心

使用LLM结合金融数据和新闻文章预测股票价格

引用
CSDN
1.
https://blog.csdn.net/m0_59163425/article/details/143665918

大型语言模型(LLMs)在金融领域的应用日益广泛,尤其是在股票价格预测方面展现出巨大潜力。本文介绍了一项结合财务数据和新闻文章预测股票价格的研究,通过使用GPT-3、GPT-4、LLaMA-2和LLaMA-3等模型,实现了较高的预测准确率。研究采用检索增强技术,将相关新闻片段与公司财务指标结合,使用零、二、四次示例设置提示LLMs,取得了令人瞩目的成果。

研究背景与意义

金融市场和股票价格变动的预测是一个复杂而重要的问题,需要综合分析公司表现、历史价格、行业事件以及人类因素(如社交媒体和新闻报道)。传统的预测方法主要依赖于机器学习算法,但近年来,随着大型语言模型(LLMs)的发展,研究者开始探索将其应用于金融市场的可能性。

本文提出了一种创新的方法,通过结合财务数据(如财务报表)和文本新闻,使用预训练的大型语言模型(LLMs)进行市场运动预测。研究采用检索增强技术,将相关新闻片段与公司财务指标结合,使用零、二、四次示例设置提示LLMs。数据集包含20家高交易量公司的新闻文章、历史股价和财务报告数据。

数据集与方法

研究收集了20家公司从2021年至今的数据,包括10-K报告的财务信息和新闻文章。选择公司基于不同产业的交易量,重点关注交易量较大的公司。

新闻文章收集

使用爬虫收集与特定公司投资相关的新闻文章,依据标签/关键词和公司名称在标题中的出现。通过搜索查询在新闻网站上抓取特定日期和公司名称的链接。从生成的文章中提取信息,构建数据集。共提取5000篇新闻文章,涵盖20家公司,时间范围为2021年10月至2024年1月。

财务数据收集

财务数据来源于10-K季度报告,包括运营/收入表、现金流量表和资产负债表,均可在公司网站上获取。研究中还包括历史价格数据,但不作为时间序列数据处理,而是通过过去6个月和12个月的价格变化来捕捉价格动量。

检索方法

由于新闻文章的数量和每个公司在给定日期的信息量很大,研究团队实现了一种分层摘要方法:

首先,根据标题、副标题和发布日期等关键元数据过滤新闻文章,在文章中搜索公司名称和索引代码。随后,对所选文章进行了总结。为了比较,采用了抽象和抽取两种总结技术。对于抽取摘要,使用OpenAI和Sentence-BERT嵌入对三句长度的新闻文章块进行编码,并计算与用户查询的相似度。此外,对于抽象摘要,利用GPT-3.5模型生成与用户查询最相关的文章的摘要。

最后,决定继续使用OpenAI嵌入的三个句子大小的块进行提取摘要,以检索更相关的信息。

实验设计与评估

研究使用了多种预训练语言模型,包括Meta的LLaMA2(7B、13B、70B)、LLaMA3(8B、70B)和OpenAI的GPT-3.5、GPT-4。实验设置包括零、二、四样本格式进行提示过程。零样本学习中,模型接收用户查询、公司信息、生成的文本和财务指标。准备了120个样本提示以测试模型预测准确性。二、四样本设置中,模型接收2个和4个示例提示及答案。二样本示例中每类各1个,四样本示例中每类各2个,以熟悉答案分布。

评估指标包括准确率、精确率(Precision)、召回率(Recall)和F1-score。使用加权F1-score考虑每类样本数量。为了确保结果的统计显著性,进行了五次评估,并计算WF1分数的标准差。

实验结果

主要关注加权F1分数(WF1)作为评估指标,最佳模型为GPT和LLaMA3-8B,增加示例对性能提升有限。LLaMA3和GPT模型优于LLaMA2,GPT-4普遍表现优于GPT-3.5,3个月预测中GPT-3.5在零-shot设置下表现最佳。LLaMA3模型在参数增加时WF1表现下降,GPT-4和LLaMA3-8B的WF1分数相近,3个月预测最高WF1为0.592(GPT-3.5),6个月预测最佳为0.591(GPT-4)。

少量学习效果显示,最佳模型WF1分数和准确率提升不显著,长提示可能导致小模型性能下降,LLaMA2 13B和70B在少量学习中表现改善。WF1分数的标准差在0到0.033之间,结果稳定,LLaMA2模型标准差较高。3个月预测通常优于6个月,但LLaMA3-8B和GPT-4在增加少量示例后,6个月预测准确性提高。

结论

这项研究展示了大型语言模型在金融市场预测中的巨大潜力,特别是在结合财务数据和新闻文章时。虽然研究结果表明,增加示例对性能提升有限,但最佳模型(GPT-4和LLaMA3-8B)在3个月和6个月的预测中都取得了较高的WF1分数。这些发现为未来的研究和实践提供了有价值的参考,特别是在金融市场预测和投资决策领域。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号