资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

高阶Transformer可在多模态时间序列数据上提升股票走势预测

创作时间:

作者:

@小白创作中心

高阶Transformer可在多模态时间序列数据上提升股票走势预测

引用

CSDN

https://blog.csdn.net/2401_85328934/article/details/145373077

近年来，随着机器学习技术的快速发展，特别是自然语言处理和图神经网络领域的突破，研究人员开始尝试整合多模态数据源以更准确地预测股票走势。近日，一篇被KDD 2024接收的论文提出了一种名为"高阶Transformer"的新型架构，通过引入高阶自注意力机制，有效提升了多模态时间序列数据上的股票走势预测能力。

对于投资者和交易者来说，预测金融市场中股票走势十分重要，因为这能使他们做出明智的决策并提高盈利能力。然而，由于市场动态的随机性、股票价格的非平稳性以及历史价格之外众多因素的影响，这一任务本质上极具挑战性。

研究背景

传统的股票预测方法主要侧重于技术分析（TA）和基本面分析（FA），分别利用历史价格数据和关键财务指标。虽然这些方法提供了有价值的见解，但它们往往无法捕捉到金融数据的复杂相互依赖性和高维结构。

机器学习，特别是自然语言处理和图神经网络领域的最新进展，已开始通过整合新闻文章和社交媒体情绪等多模态数据源来解决这些局限性，从而更细致地理解市场动态。尽管取得了这些进展，但现有模型在处理高维、多元时间序列数据时，仍难以应对金融数据的庞大数量和变异性，导致预测性能往往不尽如人意。

为了解决这些挑战，研究者引入了一种名为高阶 Transformer 的新型架构。该架构通过在自注意力机制中融入高阶数据结构，扩展了传统的 Transformer 模型，使其能够捕获跨越时间和变量之间更复杂的相互关系。

方法论

标记化

研究者首先解释了如何对输入的多变量时间序列数据进行标记化。他们为每个股票在每天构建了一个价格向量，包括调整后的收盘价、最高价和最低价。此外，还添加了日期特征，如每月的日期、年份的月份和年份。这些价格和日期特征的组合形成了每个股票每天的六维向量。

受先前工作的启发，研究者在每个时间序列的开头添加了特定于股票的可学习标记，并将其作为 Transformer 编码器中的常见 CLS 标记。类似于 BERT 和 ViT，使用这个特殊标记的隐藏状态作为整个时间窗口内股票的表示，用于分类任务。

高阶Transformer

研究者通过张量化查询、键和值，将自注意力机制扩展到高阶，从而形成了高阶 Transformer 层。鉴于在张量上计算注意力的成本过高，研究者提出了使用 Kronecker 分解的低秩近似，并结合了注意力核技巧，显著降低了计算复杂度。

图1：使用Kronecker分解的高阶注意力机制

模型架构

模型架构由一个多层 Transformer 网络组成。输入张量通过一个线性投影层进行转换，以使特征与模型及其注意力模块所需的隐藏维度对齐。这里采用了预归一化技术，特别是 RMSNorm，在每一层中遵循 Touvron 等人提出的方法。对于计算时间注意力，则应用了旋转位置嵌入，而对于股票级注意力则不涉及位置嵌入，因为在这个维度上的顺序是无意义的。

如图2所示，推文编码被输入到 Transformer 编码器中，而历史价格数据被输入到 Transformer 解码器中。本文提出的多模态模型遵循编码器-解码器架构，其中编码器和解码器的数据模态不同。具体来说，文本编码由 Transformer 编码器处理，价格时间序列数据由 Transformer 解码器处理。而网络中的跨注意力层促进了这两种模态之间的信息融合。

图2：多模态Transformer架构

实验效果

研究者使用了 Stocknet 数据集来展示高阶 Transformer 在股票市场运动分类中的能力。该数据集包含了从 Yahoo Finance 中提取的88只股票的历史数据，以及从 Twitter 爬取的相关新闻，时间跨度为两年。

实验分析了本文所提出的模型与各种基线模型在 StockNet 数据集上的基准性能。如表1所示，本文所提出的模型在所有评估指标上均优于大多数现有基线模型，仅次于 NL-LSTM 模型，后者在二元股票运动预测中报告了最高的准确率。

表1：分类性能对比

研究者又进一步通过消融研究来调查模型的不同方面的影响，重点关注使用的注意力机制类型、数据模态和注意力方法。结果分别提供在表2和表3中。

表2展示了数据模态对性能的影响。整合了价格数据和 Twitter 新闻的多模态方法显著优于单模态方法，强调了利用多种数据源的好处。此外，文本基础的模型比基于时间序列的模型表现更好，显示出从 Twitter 爬取的新闻数据中存在丰富的上下文，对股票运动预测任务有显著帮助。表2还探讨了在不同模态下使用线性与标准注意力机制的效果。结果突出了线性注意力在效率和效果方面的优势，特别是在多模态设置中。

表3展示了在任一单一维度（股票级或时间级）应用注意力与不使用注意力相比，性能指标有所提高，但在两个维度上同时应用注意力时，性能提升最为显著。

表2：关于数据模态和注意力机制的消融研究表明，使用多模态数据相较于单模态数据更有效，使用核化注意力机制相较于标准注意力机制也更有效

表3：关于注意力维度的消融研究表明，在两个维度上应用注意力机制都是有效的

总结

本文提出了一种专为处理多模态股票数据以预测股票走势而设计的高阶 Transformer架构。通过扩展自注意力机制和 Transformer 架构以纳入高阶交互，该模型能够熟练地捕捉金融市场在股票和时间两个维度上的复杂动态。为了应对计算限制，研究者通过张量分解实现了低秩近似，并整合了核注意力，以实现线性计算复杂度。在 Stocknet 数据集上的广泛测试表明，本文方法在预测股票走势方面显著优于大多数现有模型。消融研究进一步验证了特定架构组件的有效性，凸显了它们对模型性能的贡献价值。未来研究者计划在其他多模态股票数据集上训练模型，并对真实世界的股票数据进行盈利能力分析，以进一步测试所提出方法的实际应用效果和财务可行性。

论文标题：Higher Order Transformers: Enhancing Stock Movement Prediction On Multimodal Time-Series Data

论文地址：https://arxiv.org/abs/2412.10540