问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

在线高频交易股票预测:自动化特征聚类与径向基函数神经网络

创作时间:
作者:
@小白创作中心

在线高频交易股票预测:自动化特征聚类与径向基函数神经网络

引用
CSDN
1.
https://m.blog.csdn.net/2401_85375298/article/details/144714341

本文介绍了一篇关于高频交易股票预测的论文,该论文由Adamantios Ntakaris和Gbenga Ibikunle撰写,题为《Online High-Frequency Trading Stock Forecasting with Automated Feature Clustering and Radial Basis Function Neural Networks》。论文主要探讨了如何利用机器学习算法实现高频交易(HFT)环境下股票价格的自动化预测。

一、引言:高频交易与机器学习

高频交易(HFT)已成为现代金融市场的核心组成部分,其特点是利用先进算法在极短时间内执行大量订单。HFT的快速发展得益于机器学习(ML)算法的应用,这些算法能够处理海量数据并实时做出交易决策。然而,HFT环境下的机器学习算法面临以下挑战:

  1. 特征选择依赖人工且效率低下:传统的机器学习预测协议通常依赖于人工选择特征,这些特征可能包含大量噪声且信息量不足。特征选择过程通常基于计算成本高昂的优化程序和人工方法,严重依赖交易员的领域知识。

  2. 决策速度要求极高:HFT环境下,交易决策需要在毫秒甚至微秒级别完成,任何延迟都可能导致巨大损失。因此,传统的依赖人工干预的机器学习流程难以满足HFT的需求。

为了应对这些挑战,本文提出了一种完全自主的机器学习实验协议,旨在实现以下目标:

  • 自动化特征重要性评估:取代人工特征选择过程,自动识别对预测任务最重要的特征。
  • 自动化聚类:优化输入数据的聚类过程,减少对人工拓扑搜索的依赖。
  • 在线学习:实现实时数据处理和模型更新,以适应快速变化的市场环境。

二、相关工作:自动化机器学习在金融领域的应用

近年来,许多研究致力于开发自动化机器学习框架,以解决金融预测中的各种问题。以下是一些相关研究:

  1. 自动化特征选择
  • 一些研究利用强化学习方法自动化交易过程,但仅取得了有限的边际收益。
  • 其他研究开发了基于两步过程(聚类和正则化回归)的自动化特征选择方法,用于电子病历数据的预测。
  • 一些研究针对金融预测任务进行了自动化特征选择。
  1. 特定方法的应用
  • 均值降低不纯度(MDI):该方法已被证明在油田领域水吸收预测、农业保险领域支付意愿(WTP)预测等任务中有效。此外,MDI也被应用于清洁能源ETF预测和股票价格影响因素分析等金融数据预测任务。
  • 梯度下降(GD):作为机器学习领域最常用的优化方法之一,GD已被广泛应用于线性自适应滤波器开发、Hessian向量积计算以及大型矩阵近似等任务。
  • k-means聚类算法:该算法及其改进版本在图像分类和分割数据集上进行了广泛测试。在金融领域,k-means算法被用于寻找股票集群以实现最优回报,并已成功与RBFNN结合用于预测任务。
  • 径向基函数神经网络(RBFNN):该方法已被提出作为UCI机器学习存储库中图像分割任务的分类器。RBFNN也已应用于股票价格预测等金融预测任务。

尽管上述方法在金融领域已有广泛应用,但它们在训练过程中的实现是静态的,这意味着特征重要性和k-means算法中的聚类数量必须手动选择或基于肘部方法(一种通过绘制解释方差与聚类数量关系来确定聚类数量的启发式方法)来确定。据作者所知,这是首次在HFT领域提出一种在线且完全自主的特征重要性和聚类数量优化识别方法。

三、提出的方法:自动化机器学习流程

为了应对HFT环境中信息流动速度极快的挑战,本文开发了一种完全自动化的机制,用于确定特征重要性(即信息重要性)和信息聚类的最优数量。该流程分为以下四个模块:

模块1:基于MDI和GD的特征重要性竞争机制

该模块旨在识别对中间价格预测任务最重要的特征。中间价格是指最佳买入价和最佳卖出价的平均值。

MDI方法

MDI是一种评估特征重要性的技术,特别适用于集成模型,如随机森林(RF)。在RF回归中,MDI提供了单个特征对回归器预测能力的定量贡献指标,该指标基于节点不纯度降低的平均值,汇总了RF中所有树的结果。

  • 节点不纯度:通过目标变量的均方误差(MSE)来衡量。
  • 节点j处特征f的方差:由公式(1)给出:
  • 节点j处特征f的不纯度降低:由公式(2)给出:
  • 特征f的MDI:由公式(3)给出:

GD方法

GD是一种迭代优化方法,本文将其转换为特征重要性技术。具体步骤如下:

  1. 将观测矩阵 与权重向量 关联。
  2. 根据GD算法迭代更新权重向量 (算法1)。
  3. 优化后的向量 作为训练后的重要性权重向量。

特征重要性矩阵

将MDI和GD方法得到的特征重要性向量与观测矩阵相乘,得到两个竞争的特征重要性矩阵 和 。

模块2:构建基于相关性的观测矩阵

将 和 转换为相关性矩阵,然后根据公式(6)将其转换为距离矩阵:

其中 表示基于MDI的相关性矩阵,由公式(7)定义:

基于相关性的距离矩阵转换的目的是提高高维数据集(如HFT LOB数据集)的可解释性。例如,如果两个变量高度相关,则它们在矩阵中的距离会很小。此外,某些算法(如k-means)需要计算数据点之间的相似度和距离。

模块3:通过k-means算法和轮廓分数定义最优聚类数量

该模块旨在确定k-means聚类方法下的最优聚类数量,通过计算轮廓分数来实现,该分数考虑了聚类的紧密性和分离性。

  • 轮廓系数:由公式(8)定义:
  • 质量比率:由公式(9)定义:

其中 是样本i与同一聚类中其他元素的平均距离, 是样本i与最近聚类中其他元素的平均距离。较高的q值表示更好的聚类质量。

模块4:应用RBFNN回归器

RBFNN由输入层、隐藏层和输出层组成:

  • 输入: 和 (公式(4)和(5))。
  • 隐藏层:包含径向基函数(RBF)激活函数:

其中 是第i个转换后的数据样本, 和 分别代表第j个RBF神经元的中心和标准差。

  • 输出层:预测标签(即回归)基于所有训练权重和激活结果的汇总:

其中 代表隐藏层和输出层之间第j个RBF神经元的权重,由公式(17)计算:

四、实验:评估模型性能

实验协议和数据

实验的主要目标是预测中间价格(即回归任务),并采用完全自主的过程确定特征重要性和聚类数量。实验采用两种竞争方法(MDI和GD)作为特征重要性机制,并将它们应用于相同的输入矩阵,然后通过基于距离的相关性转换,将输入数据输入到RBFNN中。

实验采用两种特征集:

  • 简单特征集:包括最佳买入价、最佳卖出价及其对应的交易量。
  • 扩展特征集:基于基本、内核化和多项式特征的集合。

实验采用滑动窗口机制,每个窗口包含100个事件,与前一个窗口重叠99个事件。训练和测试分割基于累积的五折设置,这意味着每个训练折吸收可用的测试集,并在预测性能报告后将其转换为训练数据。

结果

实验结果表明,每只股票在MDI和GD方法下的表现行为不同。在纳秒级别上,这两种方法之间的性能曲线不断变化。所有股票在MDI方法下都表现出在两个和三个聚类数量之间的持续交替,并且在两种特征重要性方法之间快速变化,平均每10个交易事件发生一次从MDI到GD的转变。

  • 不同特征集的影响:根据输入信息(即简单或扩展特征集),股票的表现行为有所不同。例如,MSFT在简单数据集下的表现比扩展输入差。此外,MSFT在简单数据集下基于GD算法的表现优于扩展数据集,该数据集选择了MDI。
  • 低RMSE分数:两种特征重要性方法在许多情况下都提供了低RMSE分数。例如,GOOGL在GD方法下,基于扩展特征集实现了最低的RMSE分数,与其他实验场景相比。
  • 相对RMSE (RRMSE):为了突出完全自主协议的重要性,本文还考虑了相对于LOB中间价格的归一化RMSE,即RRMSE,该指标基于RMSE与当前中间价格的比率。RRMSE使我们能够直接比较每个股票的四组实验设置(即两种特征重要性方法与两种不同的输入集)。如表VII所示,研究结果表明,MDI方法在简单特征集下实现了60个案例(即每只股票三个月)中36个案例的最低RRMSE。

局限性

尽管所提出的完全自主方法非常有效,但本文的研究确实存在某些局限性:

  1. 狭窄的AI方法:该实验协议是专门为预测LOB中间价格这一特定目标而开发的,属于狭窄的AI方法。
  2. 特征工程:本文的方法利用了一些可以从现有最佳LOB价格水平轻松构建的特定特征。在未来的工作中,采用更复杂、手工制作和完全自主的特征将是有益的。
  3. 缺乏广泛的基准建模框架:缺乏一个更严格的挑战现有RBFNN拓扑的广泛基准建模框架。
  4. 假设各向同性聚类:本文假设k-means算法中的聚类具有各向同性,即每个聚类都表现出恒定的方差。这一假设并不总是成立。
  5. 数据集长度:本文认为,在未来的研究中,应该延长所使用的数据集的长度,以提高结果的稳健性。

五、结论

在线HFT环境下的预测需要快速且完全自主的机制,能够有效利用所有可用信息。据作者所知,本研究首次实现了k-means算法和RBFNN中聚类数量的自动化定义,用于纳秒级LOB中间价格预测。本文开发了一个竞争框架,通过将GD转换为特征重要性方法,不断挑战所提出的MDI方法。

实验使用Refinitiv提供的20只美国大型股票的数据,时间分辨率为纳秒级。研究结果表明,自主聚类和特征重要性方法虽然具有挑战性,但也为基于机器学习的交易员提供了多种好处。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号