问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

用于高频交易实时中间价预测的最小批量自适应学习策略AI引擎

创作时间:
作者:
@小白创作中心

用于高频交易实时中间价预测的最小批量自适应学习策略AI引擎

引用
CSDN
1.
https://blog.csdn.net/AI16947/article/details/145319607

高频交易(HFT)对现代金融市场至关重要,而短期价格预测因需应对高速度和复杂性的挑战,传统统计模型难以胜任。先前的研究展示了一种基于径向基函数神经网络(RBFNN)的策略,通过自动特征选择技术提高了中间价格预测的准确性,其效果优于传统手段。在这篇文章中,我们介绍了一个新的强化学习(RL)框架,该框架能够根据市场动态调整预测策略,提供更加灵活的解决方案。我们进行了多种模型的比较实验,包括ARIMA、MLP、CNN、LSTM、GRU和RBFNN,并评估了RL模型在不同输入数据集和特征重要性技术下的表现。我们的研究主要贡献在于扩展了基准模型和股票样本的数量,探索了RL在利用HFT限价订单簿(LOB)数据进行价格预测中的潜力,展示了它在捕捉非线性关系方面的优势。

方法

本文详细描述了ALPE模型的实验方法,涵盖了所使用的数据集、预处理技术、RL环境设置以及ALPE代理的架构。通过与RBFNN、ARIMA、CNN、LSTM、GRU等模型进行对比,还包括了一些简单的基线回归模型,以全面评估ALPE的性能。实验使用了三类输入特征集:MDI特征重要性、GD优化结果以及原始LOB数据,以确保比较的公正性。评估过程中主要采用了均方误差(MSE)、均方根误差(RMSE)和相对均方根误差(RRMSE)作为性能指标。

预测目标是限价订单簿(LOB)中间价格的预测,作为衡量交易活动的一个指标。准确预测中间价格的变化对于理解大宗订单对市场价格的影响至关重要。我们使用事件回归模型DQR进行分析,目标是通过最小化预测误差来优化模型性能,并采用MSE、RMSE以及新提出的RRMSE作为评估标准,与其他基准模型如ARIMA、LSTM和GRU等进行了性能对比。中间价格被定义为最佳买价与卖价的平均值。RRMSE是指基于时间点t的相对均方根误差,实验中采取了基于事件而非采样的方法来进行。我们的研究采用了面向事件的在线预测方法,涵盖了批量训练和无批量学习两种设置。参与比较的模型包括基线回归、ARIMA、MLP、CNN、LSTM、GRU和RBFNN,这些模型都在批量训练模式下运行;而新开发的ALPE模型则在无批量设置下工作。为了保证评估的公平性,所有模型遵循滚动窗口实验协议,基于10个LOB状态进行训练,因为观察到每10个交易事件间会出现平稳与非平稳序列的交替现象。当减少用于训练的LOB状态数量时,其他竞争模型的性能显著下降。然而,ALPE模型虽然也按照相同的滚动窗口协议操作,但其窗口大小仅为1,仅依赖当前的LOB信息进行预测。

数据预处理与特征工程

在高频交易(HFT)中,由于数据存在大量噪声和高维度特性,数据预处理和特征工程对于提升模型性能极为关键。有效的预处理能够确保特征被恰当地缩放,从而增强学习算法的稳定性和收敛速度。本文介绍了采用的若干预处理步骤,包括利用MDI和GD方法来计算特征重要性,以及应用最小-最大缩放方法进行数据归一化处理。这些步骤有助于从复杂的数据集中提取有价值的信息,同时保证了后续分析的有效性和可靠性。

  • MDI(Mean Decrease Impurity)

MDI(Mean Decrease Impurity)是一种基于随机森林的特征重要性评估方法,它通过计算每个特征在所有决策树中能够减少的不纯度平均值来衡量该特征的重要性。在回归分析中,方差被用作不纯度的标准,其中节点j的方差不纯度可通过特定公式计算得出。节点j的方差不纯度计算公式为:

训练过程中,算法通过节点分裂来最小化不纯度,特征f在节点j的 impurity reduction(不纯度减少)为:

MDI特征f的计算公式为:

为在树b中以特征f进行分裂的节点集合。

  • GD(Gradient Descent)

GD(梯度下降)算法是一种基于一阶导数的优化方法,通过不断迭代更新参数以最小化损失函数,从而调整特征权重来减少均方误差(MSE)。在开始时,会初始化输入矩阵X(包含N个样本和F个特征)以及目标变量y(表示LOB的中间价格),而权重向量θ则初始设置为全1。这种方法旨在通过逐步优化权重向量,实现对目标变量的更精确预测。

预测值计算每个样本的预测值。

误差项用于比较预测值与真实值。

目标函数J(θ)定义为所有样本的MSE,计算每个权重的梯度以更新特征权重。为确保数值稳定性,处理梯度中的NaN或无穷值,并应用梯度裁剪。

权重更新公式为

  • 算法

特征重要性(FI)向量通过MDI方法和GD算法的权重绝对值来表示,分别记为FI MDI和FI GD。为了保证数值的稳定性,在最终的特征重要性分数中加入了一个小常数δ(0.001)。特征矩阵的转换遵循一个特定的公式:算法设定固定迭代次数为10次,但通常在大约第7次迭代时就已经达到收敛状态。算法的具体步骤在算法1和算法2中有详细概述。这种方法确保了特征的重要性评估既考虑了基于树模型的统计结果,也结合了优化算法的动态调整能力。

  • 特征工程

利用来自一级限价订单簿(LOB)的多种特征来预测中间价格的变化,这些特征被分为简单组和扩展组。简单组由四个核心特征组成:最佳买入价(P1 bid)、最佳卖出价(P1 ask)以及它们各自的交易量(V1 bid、V1 ask),这些特征反映了市场的流动性和供需状况。扩展组通过转换最佳买卖价格提供了更深层次的洞察,包括中间价格(u2)、买卖价差(u3)以及周期成分的正弦变换(u4)。合成特征(u5至u8)旨在捕捉价格与交易量之间的非线性交互作用,其中u5和u6代表最佳买入价和卖出价与其相应交易量的乘积,而u7和u8则引入了二阶依赖关系。此外,扩展组还包含了各种核变换:如线性核(u9)、三次多项式核(u10)、Sigmoid核(u11)、指数核(u12)和RBF核(u13),以便于识别复杂非线性关系和局部模式。这种方法使得模型能够更全面地理解和预测市场动态。

强化学习-深度策略价值学习

ALPE RL框架利用深度学习模型来逼近最优动作价值函数,从而在高频交易中预测中间价格。这是一种无模型、基于价值的强化学习方法,代理通过直接与环境互动进行学习。该环境涵盖了当前限价订单簿(LOB)的状态、动作范围、LOB特征集(包括简单和扩展特征),以及一个奖励函数,该函数会对偏离实际中间价格变动的情况施加惩罚。代理采用事件驱动的在线学习模式,能够根据最新的LOB数据不断调整适应。本文将详细探讨代理的各个组件,包括其操作环境、动作与奖励机制、内部深度学习模型的设计及其学习流程。这种方法使得代理能够在复杂多变的市场环境中优化其决策过程。

  • 马尔可夫决策过程表示

这个问题被建模为一个马尔可夫决策过程(MDP),包含状态集S、动作集A、奖励R和折扣因子γ。在时间t的状态s_t由限价订单簿(LOB)的特征向量表示,其中包括买入价、卖出价等市场指标。动作集A代表对中间价格预测的调整措施,并通过ε-贪婪策略来选择动作,其中探索参数ε随时间逐渐减少。环境的转换遵循马尔可夫属性,即下一个状态s_{t+1}仅取决于当前状态s_t和采取的动作α_t,且这种转换是确定性的。奖励函数R(s_t, a_t)根据预测中间价与实际中间价之间的差异来计算,旨在激励减小预测误差。折扣因子γ设置为0,以集中于最大化即时奖励,这适应了高频交易环境中快速变化的特点。这种方法确保了系统能够迅速响应市场的最新动态。

  • 网络架构

采用多层感知器(MLP)作为非线性回归器来近似策略价值函数 f π (s t , a t ; θ ALPE),该函数表示在现有策略下,于状态 s t 执行动作 a t 时所能获得的即时奖励调整。这种方法利用MLP的能力来捕捉复杂的状态-动作关系,从而优化决策过程。

网络结构:

  • 输入层:接收当前状态 s t ∈ R n。

  • 隐藏层:由8层组成,每层包含64个神经元,并采用ReLU激活函数。

  • 批量归一化:在首个隐藏层之后实施,以增强学习过程的稳定性及加速收敛。

  • 输出层:作为第九层,仅包含一个神经元,用于预测策略价值。

  • 归一化与缩放:通过可学习的参数对归一化后的输出进行调整,实现缩放和偏移。这种方法确保了输出的有效性和模型的灵活性。

  • 最小训练下的策略值逼近

策略价值函数 f π (s t , a t ; θ ALPE) 用于估算在当前策略下,于状态 s t 执行动作 a t 后的预期累积奖励。每一步计算出的策略价值目标 f π ,target (s t , a t ; θ ALPE) 则体现了经过调整后的预期奖励水平。策略价值目标的设定考虑了即时奖励 R t 和探索行为的惩罚。网络的目标是最小化预测的策略价值与目标策略价值之间的平方误差。训练过程中采用自适应矩估计(Adam)优化器,只需进行两个周期的训练,由于输入信息量有限,模型能够迅速收敛。这种方法确保了高效的学习过程和快速的性能提升。

模型架构的新颖性

  • 在线适应:代理在事件驱动的机制下不断调整其策略,并实时更新策略价值网络以适应市场变化。
  • 奖励平衡机制:奖励函数旨在通过惩罚预测误差来优化性能,同时结合探索因子,确保在探索新行动和利用现有策略之间取得平衡。
  • 马尔可夫结构:此框架依赖于马尔可夫假设,即当前的限价订单簿(LOB)状态为强化学习代理提供了做出决策所需的所有相关信息。这种方法使得代理能够在动态环境中有效运作并作出最优选择。

结果

本研究采用了2022年9月1日至11月30日期间,来自纳斯达克的一级限价订单簿(LOB)高频交易数据集,涉及100只股票。

为了评估ALPE模型的性能,我们将其与多种预测模型进行了对比,包括ARIMA、朴素回归、MLP、CNN、LSTM、GRU和RBFNN。每种模型都运行了十次以计算平均RMSE和RRMSE,从而减少随机波动对性能指标的影响。结果显示,在三个月的测试期内,ALPE模型在预测中间价格变动时的误差最小。特别是在Amazon股票的预测中,ALPE模型在Exte数据集上的表现最佳,其RMSE和RRMSE均为最低。具体来说,在Simple数据集中,ALPE模型的RMSE为5.586E-02,RRMSE为4.906E-04;而在Exte数据集中,这些值分别降低到了2.527E-02和2.732E-04。ALPE模型在所有简单和复杂数据集上均超越了其他竞争模型,展示了其在处理含噪声信号数据时的有效性。尽管特征工程对不同股票(如WBD)中的影响各异,但ALPE模型的表现依旧优于其他模型。对于大多数股票,通过利用非线性输入空间(Exte GD),ALPE模型显著降低了RRMSE值,提高了性能。Friedman检验及Conover后续检验表明,ALPE在多个数据集上的表现显著优于其他机器学习和深度学习模型,尤其是在处理噪声HFT数据方面。特别是,相较于Naive和ARIMA模型,ALPE在RMSE上的改进具有高度显著性(p<0.001),而对于CNN和MLP,也显示出统计学上的显著优势(p<0.01)。对于交易量较低的股票,建议HFT交易者优先使用RRMSE来更准确地评估预测误差。分析还显示,对于高流动性市场(如BAC和XOM),复杂的特征集对ALPE模型至关重要;而对于交易量较低的股票(如WBD和IPG),简单的输入配置不仅足够且能有效降低计算成本。这表明ALPE模型能够灵活适应不同的市场条件和需求。

总结

本研究提出了一种新型的基于最小批次强化学习的模型ALPE,专注于高频交易中的中价预测,仅依赖当前的限价订单簿(LOB)状态。ALPE通过自适应epsilon衰减和精细调节的奖励结构,动态平衡探索与利用,显著降低了预测误差。在对100只标准普尔500指数股票的NASDAQ Level 1 LOB数据进行严格实证评估时,ALPE consistently outperforming多种基准模型。以亚马逊股票为例,ALPE在扩展的GD数据集上实现了RRMSE为2.484E-04,较GRU(1.178E-03)和MLP(9.202E-04)分别降低约79%和73%。RRMSE指标显示ALPE在不同交易量下的有效性,绝大多数股票的误差显著改善,证明该指标在股票比较中的价值。未来研究可探讨将ALPE模型整合进多智能体强化学习框架,提升其在合作与竞争场景中的能力。适应处理Level 2 LOB数据可能使ALPE捕捉更广泛的市场动态,为实时高频交易预测提供可靠框架。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号