问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

用于高频交易中实时中间价预测的自适应学习策略AI引擎

创作时间:
作者:
@小白创作中心

用于高频交易中实时中间价预测的自适应学习策略AI引擎

引用
CSDN
1.
https://m.blog.csdn.net/everly_/article/details/145280770

高频交易(HFT)在现代金融市场中至关重要,短期价格预测面临高速度和复杂性挑战,传统统计模型效果有限。本文引入了一种新的强化学习(RL)框架,能够根据市场变化动态调整预测策略,提供更灵活的解决方案。

高频交易(HFT)在现代金融市场中至关重要,短期价格预测面临高速度和复杂性挑战,传统统计模型效果有限。本文引入了一种新的强化学习(RL)框架,能够根据市场变化动态调整预测策略,提供更灵活的解决方案。

在对100只标准普尔500指数股票的NASDAQ Level 1 LOB数据进行严格实证评估时,ALPE在扩展的GD数据集上实现了RRMSE为2.484E-04,较GRU(1.178E-03)和MLP(9.202E-04)分别降低约79%和73%。RRMSE指标显示ALPE在不同交易量下的有效性,绝大多数股票的误差显著改善,证明该指标在股票比较中的价值。

摘要

高频交易(HET)改变了现代金融市场,使可靠的短期价格预测模型变得必不可少。在本文中,我们提出了一种新的方法来预测中间价格,使用来自纳斯达克的一级限价订单(LOB)数据。重点关注2022年9月至11月期间标准普尔500指数中的100只美国股票。

在我们之前的径向基函数神经网络(RBFNN)工作的基础上,我们引入了自适应学习策略引擎(ALPE)——一种基于强化学习(RL)的智能体,设计用于无批量、即时的中间价格预测。RBFNN利用了基于平均减少杂化(DI)和梯度下降(GD)的自动化特征重要性技术。ALPE采用自适应epsilon衰减来动态平衡勘探和开发,在预测性能方面优于各种高效的机器学习(L)和深度学习(DL)模型。

简介

高频交易(HFT)在现代金融市场中至关重要,短期价格预测面临高速度和复杂性挑战,传统统计模型效果有限。之前的研究中,提出了一种基于径向基函数神经网络(RBFNN)的模型,利用自动特征选择技术提升中间价格预测准确性,表现优于传统方法。

本文引入了一种新的强化学习(RL)框架,能够根据市场变化动态调整预测策略,提供更灵活的解决方案。进行了一系列模型比较,包括ARIMA、MLP、CNN、LSTM、GRU和RBFNN,评估RL模型在不同输入数据和特征重要性技术下的表现。研究的主要贡献在于扩展基准模型和股票数量,探讨RL在HFT LOB数据中的预测潜力,显示其在捕捉非线性依赖方面的优势。

方法

本文介绍了ALPE模型的实验方法,包括数据集、预处理技术、RL环境和ALPE代理架构。

与RBFNN、ARIMA、CNN、LSTM、GRU等模型进行比较,包含简单基线回归模型。

使用三种输入特征集:MDI特征重要性、GD和原始LOB数据,确保评估公平性。

主要评估指标为均方误差(MSE)、均方根误差(RMSE)和相对均方根误差(RRMSE)。

预测目标

本研究旨在预测限价订单簿(LOB)的中间价格,作为交易活动的代理。准确估计中间价格的变动有助于理解大订单的价格影响。采用事件回归模型DQR,目标是最小化预测误差,评估指标包括MSE、RMSE和新提出的RRMSE。与多种基准模型(如ARIMA、LSTM、GRU等)进行性能比较。

中间价格定义为最佳买入价和卖出价的平均值。

RRMSE定义为相对均方根误差,基于时间事件t的RMSE计算。实验采用事件为基础的协议,无采样技术。

本文采用事件驱动的在线预测目标,包含批量训练和无批量学习设置。竞争模型包括基线回归、ARIMA、MLP、CNN、LSTM、GRU和RBFNN,均为批量训练;新开发的ALPE模型为无批量设置。

为确保公平比较,采用滚动窗口实验协议,基于10个LOB状态进行训练,因观察到每10个交易事件间存在平稳与非平稳时间序列的交替。竞争模型在减少训练LOB状态数量时性能显著下降。ALPE模型遵循相同的滚动窗口协议,但窗口大小为1,仅使用当前LOB信息。

数据预处理与特征工程

HFT中,数据预处理和特征工程对模型性能至关重要,因数据噪声大且维度高。有效的预处理确保特征适当缩放,增强学习算法的稳定性和收敛性。描述了采用的预处理步骤,包括通过MDI和GD方法计算特征重要性,以及基于最小-最大缩放的数据归一化。

MDI(Mean Decrease Impurity)

MDI(Mean Decrease Impurity)是基于随机森林(RF)的特征重要性方法,通过计算特征在所有树中减少的不纯度平均值来评估特征重要性。在回归任务中,使用方差作为不纯度指标,节点j的方差不纯度计算公式为:

训练过程中,算法通过节点分裂来最小化不纯度,特征f在节点j的 impurity reduction(不纯度减少)为:

MDI特征f的计算公式为:

为在树b中以特征f进行分裂的节点集合。

GD(Gradient Descent)

GD算法是一种一阶优化技术,通过迭代更新参数来最小化损失函数,优化特征权重以降低均方误差(MSE)。

初始化输入矩阵X(样本数N和特征数F)和目标变量y(LOB中间价格),权重向量θ初始为全1。

预测值计算每个样本的预测值。

误差项用于比较预测值与真实值。

目标函数J(θ)定义为所有样本的MSE,计算每个权重的梯度以更新特征权重。为确保数值稳定性,处理梯度中的NaN或无穷值,并应用梯度裁剪。

权重更新公式为

算法

特征重要性(FI)向量通过MDI和GD方法的权重绝对值表示,FI MDI和FI GD分别为两种算法的特征重要性向量。

为确保数值稳定性,最终特征重要性分数中添加了小常数δ(0.001)。

特征矩阵的变换公式为:

固定迭代次数为10,通常在7次时已达到收敛。

算法流程在算法1和算法2中进行了概述。

特征工程

使用来自一级订单簿(LOB)的多样特征预测中间价格变动,特征分为简单组和扩展组。

简单组包含四个关键特征:最佳买入价(P1 bid)、最佳卖出价(P1 ask)及其对应的交易量(V1 bid、V1 ask),反映市场流动性和供需平衡。扩展组通过变换最佳买入卖出价提供更深入的见解,包括中间价格(u2)、买卖差价(u3)和周期性成分的正弦变换(u4)。

合成特征(u5至u8)捕捉价格与交易量的非线性交互,u5和u6为最佳买入卖出价与交易量的乘积,u7和u8引入二阶依赖性。扩展组还包括多种核变换:线性核(u9)、三次多项式核(u10)、Sigmoid核(u11)、指数核(u12)和RBF核(u13),用于捕捉复杂的非线性关系和局部模式。

强化学习-深度策略价值学习

ALPE RL框架使用深度学习模型近似最优动作价值函数,以预测高频交易中的中间价格。该方法为无模型、基于价值的强化学习,代理通过与环境的直接互动学习。

环境包括当前的限价订单簿(LOB)状态、动作边界、LOB特征集(简单和扩展)以及惩罚偏离实际中间价格变动的奖励函数。代理以事件驱动的在线学习方式运作,基于新进的LOB数据不断适应。文中将详细介绍代理的不同组件,包括环境、动作和奖励结构、内部深度学习模型架构及学习过程。

马尔可夫决策过程表示

该问题建模为马尔可夫决策过程(MDP),由状态集S、动作集A、奖励R和折扣因子γ组成。

状态s_t为时间t的LOB特征向量,包括买价、卖价等市场指标。

动作集A表示对中间价预测的调整,采用ε-贪婪策略选择动作,探索参数ϵ随时间衰减。

环境转移为马尔可夫过程,下一状态s_{t+1}仅依赖于当前状态s_t和动作α_t,转移是确定性的。

奖励函数R(s_t, a_t)基于预测中间价与真实中间价的偏差,鼓励减少预测误差。

折扣因子γ设为0,专注于最大化即时奖励,适应高频交易的快速变化。

网络架构

使用多层感知器(MLP)作为非线性回归器,近似策略价值函数 f π (s t , a t ; θ ALPE),表示在当前策略下,状态 s t 采取动作 a t 的即时奖励调整。

网络结构:

  • 输入层:接收当前状态 s t ∈ R n。
  • 隐藏层:8层,每层64个神经元,使用ReLU激活函数。
  • 批量归一化:在第一隐藏层后应用,以稳定学习和提高收敛性。
  • 输出层:第九层,单个神经元,预测策略价值
  • 归一化和缩放:使用可学习参数对归一化输出进行缩放和偏移。

最小训练下的策略值逼近

政策价值函数 f π (s t , a t ; θ ALPE) 近似在当前策略下采取行动 a t 在状态 s t 的期望累积奖励。每一步计算的政策价值目标 f π ,target (s t , a t ; θ ALPE) 反映了调整后的期望奖励。

政策价值目标的定义涉及当前奖励 R t 和探索惩罚。

网络目标是最小化预测政策价值与目标政策价值之间的平方差。训练过程使用自适应动量估计(Adam)优化器,仅需两个周期,因输入信息有限,模型快速收敛

模型架构的新颖性

  • 在线适应:代理在事件驱动下持续调整策略,实时更新策略价值网络。
  • 奖励平衡机制:奖励函数设计为惩罚预测误差,同时考虑探索因子,平衡探索新行动与利用既有策略。
  • 马尔可夫结构:框架基于马尔可夫假设,当前LOB状态为RL代理决策提供相关信息。

结果

本研究使用了来自NASDAQ的Level 1 LOB HFT数据集,时间范围为2022年9月1日至11月30日,涵盖100只股票。

为了评估ALPE模型的表现,比较了多种预测模型,包括ARIMA、Naive回归、MLP、CNN、LSTM、GRU和RBFNN。每个模型运行十次以计算平均RMSE和RRMSE,减少随机波动对性能指标的影响。ALPE模型在三个月的测试期间内,预测中价变动时的误差最低。

Amazon股票的ALPE模型在Exte数据集上表现最佳,RMSE和RRMSE均最低。在Simple数据集上,ALPE的RMSE为5.586E-02,RRMSE为4.906E-04;在Exte数据集上,RMSE为2.527E-02,RRMSE为2.732E-04。

ALPE模型在所有简单和复杂数据集上均优于竞争模型,显示出其在噪声信号下的有效性。对于不同股票,噪声信号的有用性可能不同,例如WBD的特征工程影响了ALPE模型的表现,但仍优于竞争模型。

ALPE模型在大多数股票中通过使用非线性输入空间(Exte GD)显著降低了RRMSE值,提升了性能。经过Friedman检验后,Conover后续检验显示ALPE在多种数据集上显著优于其他机器学习和深度学习模型,尤其在处理噪声HFT数据时。

ALPE相较于Naive和ARIMA模型的RMSE改进具有高度显著性(p<0.001),对CNN和MLP也表现出统计显著优势(p<0.01)。对于低交易量股票,RRMSE比RMSE更能准确反映预测误差,建议HFT交易者优先使用RRMSE评估表现。

ALPE在不同交易量股票的表现分析显示,复杂特征集对高流动性市场(如BAC和XOM)至关重要,而简单输入配置(如WBD和IPG)适用于低交易量股票,有助于降低计算成本。

总结

本研究提出了一种新型的基于最小批次强化学习的模型ALPE,专注于高频交易中的中价预测,仅依赖当前的限价订单簿(LOB)状态。ALPE通过自适应epsilon衰减和精细调节的奖励结构,动态平衡探索与利用,显著降低了预测误差。

在对100只标准普尔500指数股票的NASDAQ Level 1 LOB数据进行严格实证评估时,ALPE consistently outperforming多种基准模型。以亚马逊股票为例,ALPE在扩展的GD数据集上实现了RRMSE为2.484E-04,较GRU(1.178E-03)和MLP(9.202E-04)分别降低约79%和73%。RRMSE指标显示ALPE在不同交易量下的有效性,绝大多数股票的误差显著改善,证明该指标在股票比较中的价值。

未来研究可探讨将ALPE模型整合进多智能体强化学习框架,提升其在合作与竞争场景中的能力。适应处理Level 2 LOB数据可能使ALPE捕捉更广泛的市场动态,为实时高频交易预测提供可靠框架。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号